大数据与人工智能概论

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

D大数据与人工智能概论OutlineIntroductiontoDataScience(BigData)&.ArtificialIntelligenceOnBigDataOnArtificialIntelligenceLandmarksofAIDevelopmentData&.IntelligenceHowAIBenefitstheWorldCaseStudyI:FoodSafetyCaseStudyII:ManufacturingProcessCaseStudyIII:AutomatedDiagnosisCaseStudyIV:FinancialRiskDetectionCaseStudyV:EducationHowAIChallengestheWorldLaborStructureSocialEthicsDiscussionDIntroductiontoDS&.AI什么是数据?数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。数据是可定量分析的记录。什么是大数据?大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。4V:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低价值密度)。大数据所代表的是当今社会所独有的一种新型的能力——以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。大数据发展的三大趋势数据总量数据形态数据组织大数据时代的三大特征数据外部化人工智能价值什么是数据挖掘?数据挖掘就是从数据中发现知识的过程。但与第一性原理不同,数据挖掘不是从基本参数和公理体系出发,而是直接从数据中得到知识。数据挖掘的可信度不如第一性原理,但是能够处理更加复杂的系统。最近,两者有相互结合、互为补益的趋势。第一性原理数据挖掘两者的结合Schmidt,M.,&Lipson,H.Distillingfree-formnaturallawsfromexperimentaldata.Science324(2009)81-85.Rudy,S.H.,Brunton,S.L.,Proctor,J.L.,&Kutz,J.N.Data-drivendiscoveryofpartialdifferentialequations.ScienceAdvances3(2017)e1602614.能挖掘出哪些东西?发现数据项之间的相关关系将数据对象聚成不同的类别将数据对象分成不同的类别预测缺失数据或者未来产生的数据数据挖掘的能耐还不仅于此,它还可以用于检测异常、发现因果关系甚至与人博弈——在AlphaGo战胜李世石的算法中,数据挖掘也做了相当的贡献。Silver,D.,etal.MasteringthegameofGowithdeepneuralnetworksandtreesearch.Nature529(2016)484.支撑决策通过数据挖掘,教育水平和教育效果能够得到大幅度提高,学者搜寻最新科学论文的时候,也在接受基于数据挖掘的文献推荐。尽管数据挖掘已经产生了巨大的社会经济价值,但这比起它能够产生的价值而言,是微乎其微的!能产生什么价值?优化生产提升销售改善生活什么是人工智能?如果一台机器能够与人展开对话(通过电传设备),并且会被人误以为它也是人,那么这台机器就具有智能。[A.M.Turing,Computingmachineryandintelligence,Mind59(1950)433.]人工智能致力于使机器智能化,智能化是衡量实体在特定环境中反应和判断能力的定量指标。[TheWorkshopatDartmouthCollege,1956.]让机器做本需要人的智能才能够做到的事情的一门科学。[M.Minsky,Thesocietyofmind(NewYork,SimonandSchuster,1986).]智能是对符号的操作,而最原始的符号对应于物理客体。[H.A.Simon,Thesciencesoftheartificial(Cambridge,MITPress,1969).]人工智能的诞生和发展PrenatalReneDescartesGottfriedWilhelmLeibnizCharlesBabbageBorn(1930s-1950s)JohnvonNeumannAlanTuringGoldenyears(1956-1974)ThefirstAIwinter(1974-1980)Boom(1980-1987)ThesecondAIwinter(1987-1993)TechnicalBreakthrough(1993-2013)DeepLearningBigDataGoldenboomwithbubble(2013-)RecentLandmarksData&.IntelligenceD.Silver,etal.,MasteringthegameofGowithdeepneuralnetworksandtreesearch,Nature529(2016)484.D.Silver,etal.,MasteringthegameofGowithouthumanknowledge,Nature550(2017)354.ArtificialIntelligenceRuleDataKnowledgeObjectUltimateIntelligenceDHowAIBenefitstheWorld基于机器学习的食品风险靶向抽检基于机器学习的食品风险靶向抽检基于机器学习的食品风险靶向抽检智能制造中潜藏的大问题:配件加工管理刀具失效:如何判定?刀具加工工艺(如铣、削、钻)在汽车、飞机和模具制造中应用广泛。刀具在加工过程中受两方面主要主要载荷:1)因高速旋转而产生的离心力;2)与加工件接触而产生的切削力。刀具在加工过程中随着加工时间的增加,自身的磨损程度也随之增加。当磨损量达到一定程度时,甚至还会出现断刀、崩边等严重磨损现象,进而导致刀具失效。在缺乏有效的刀具磨损监控、预测方法时,刀具磨损不但会增加生产产品的次品率,同时也会给安全生产造成隐患。刀具寿命:如何预测?目前大多数刀具供应商对生产出的刀具的寿命(按加工时间或加工次数)进行如下估计:对刀具进行压力测试,测出刀具平均极限寿命,在此极限寿命基础之上,一般按照80%比例折算成刀具寿命。如果刀具使用单位依照刀具供应商提供的刀具寿命进行刀具管理,那么每把刀平均损失20%的寿命。再加上测试环境的不同,刀具供应商提供的刀具寿命还会进一步受到实际工况的影响,其参考性进一步降低。数据采集通过霍尔传感器,采集加工机床主轴电流信号,电流信号经数据采集器(DAQ)传送至工控机。1.非侵入式,保证机床加工与数据采集的独立性;2.安装方便,即装即用。还包括机床数控程序及实时运转信息、加工工艺及加工材料信息以及刀具种类、材质、加工长度等信息。有条件的情况下,可以通过高速摄像头采集刀具的图像信号;通过数控机床自带或侵入式的传感设备,采集压力、振动、热度、声音等其他信息。管理系统特征工程Burstiness:用来评估事件发生频率的间歇性增长量或减少量Skewness:用来评估样本数据相对于均值的不对称性Kurtosis:用来评估时序数据的离群倾向Coefficientofvariation:用来评估数据分布的相对于均值的离散化程度极大似然估计法:通过样本的观测值数据估计某种分布的未知参数时域磨损特征:•均值•均方根•均方•峭度因子•裕度因子频域磨损特征:•频带能量•重力频率•均方频率•峰值频率磨损特征基础特征时域信号作用:(1)验证刀具磨损反应到电流上进行磨损预测的方法是否可行;(2)查看刀具的电流信号能否反应磨损状态,即磨损突变信号,整个加工周期是否有趋势。经过快速傅里叶变换(FFT)的频谱把时域上的电流信号映射到频域上,从而能够观察到电流信号中包含了哪些频率:其中哪些频率是属于刀具切削信号的,哪些是属于空转信号和其他噪声信号的。相对特征以刀具使用前期的数据作为基准,观察特征对基准的偏离。以刀具上一个工件加工数据作为基准,观察特征值含时漂移。数据分析工控机持续不断地接收来自数据采集器的电流信号,能够对不同机床的实时信号进行监控、分析和预测,并在必要时发出报警信号或其它辅助信号,如向自动换刀系统发送换刀信号。结合决策树、卷积神经网络等方法进行寿命预测。典型案例I-常州瑞声常州瑞声科技:近千台机床铣削制造手机壳,每台机床每年消耗5000把铣削刀具。每年消耗500万把刀!企业痛点:刀具寿命太短,制造200个手机壳即丢弃,但相当部分刀具上可以制造300个手机壳以上,造成大量浪费。通过检测铣削电流的稀疏贝叶斯学习,对每把铣刀的寿命进行预测,可平均提高寿命超过25%,创造可观经济效益重大价值1.刀具是机加工中最常见的耗损件,机加工中刀具的磨损是最大的成本;2.机加工中其他易耗件的寿命管理也可以采用类似的方法完成;3.大数据+人工智能还能在大型机械设备健康管理和异常检测,以及生产线优化中发挥巨大作用。制造加工中的配件寿命预测与生产线优化制造加工中的配件寿命预测与生产线优化制造加工中的配件寿命预测与生产线优化特征工程+机器学习通过对吸嘴、原件数据的数据整合,整理、衍生出500多个抛料特征训练设备检测模型。在对SMT流水线数据的建模过程中,利用集成模型可以精确地判定是否存在异常。其中抛料的准确率,相比之前的87.60%,达到了现在的96.77%。早期肺癌筛查[Kaggle大赛]识别基因转录位置[Nat.Rev.Gene.16(2015)321]乳腺癌亚型分类[JMRI44(2016)122]药物作用预测[BMCBioinformatics2017]大数据与人工智能广泛应用于医疗领域传统医学图像处理•实际情况多变•准确率不高•难以大范围推广医学影像深度学习•深度学习•海量数据快速处理•准确率高•可解释性较弱人工智能读片vs.人工读片眼科疾病筛查算法的准确率可以达到甚至超过专业医生水准J.Cheng,etal.,SparseDissimilarity-ConstrainedCodingforGlaucomaScreening,IEEETransactionsonBiomedical62(2015)1395.人工智能小艾每月为20000+双眼睛读片人工智能用于早期眼病筛查打击非法集资通过公开的渠道,采集了4000多万家企业的股权关系、知识产权、人力资源、法律诉讼、招标投标等数据,可以帮助我们自动发现金融风险。DataandTarget数据部分来源于“国家企业信用信息公示系统”,包括(1)企业的成立日期、注册地点、企业类型、企业的经营范围等信息;(2)企业的股东关系信息;(3)企业管理人员的任职关系信息;(4)企业的变更信息。另外还包括所有具有失信记录的企业名录(在投资关系网络中简称为黑节点)。研究目标:刻画企业失信风险传播的规律,提出发现和预测失信企业的算法,大幅度提高风险和识别和预测能力。应用场景:BBD风险控制引擎。AttributeAnalysis根据企业的基本特征,包括注册地、所在行业、企业规模在行业中的位秩等等,通过简单的广义线性回归模型,可以得到各特征的回归权重。利用这种简单方法,所预测出来的风险最高的前10000家企业,接近30%有失信记录。TopologicalAnalysisAbnormalDetection最多互惠边:江苏中润跨地域高阶循环增资RiskPropagationI无向网络有向网络RiskPropagationIIFeatureSelectionIF

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功