基于simio的产品分拣系统建模与仿真

lizhaoce
4 ℃
2020-06-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

HIERARCHICALREINFORCEMENTLEARNINGINCONTINUOUSSTATEANDMULTI-AGENTENVIRONMENTSADissertationPresentedbyMOHAMMADGHAVAMZADEHSubmittedtotheGraduateSchooloftheUniversityofMassachusettsAmherstinpartialfulﬁllmentoftherequirementsforthedegreeofDOCTOROFPHILOSOPHYSeptember2005ComputerSciencecCopyrightbyMohammadGhavamzadeh2005AllRightsReservedHIERARCHICALREINFORCEMENTLEARNINGINCONTINUOUSSTATEANDMULTI-AGENTENVIRONMENTSADissertationPresentedbyMOHAMMADGHAVAMZADEHApprovedastostyleandcontentby:SridharMahadevan,ChairAndrewG.Barto,MemberVictorR.Lesser,MemberWeiboGong,MemberW.BruceCroft,DepartmentChairComputerScienceTomyparents.ACKNOWLEDGMENTSImustbeginbythankingmymotherandthenproceedtoaskhertoforgivemeforyetanotherfailing:Iamabsolutelyincapableofexpressingthedepthofmygratitudeforherendlesslove,support,andencouragement.IamdeeplygratefultomyadvisorSridharMahadevan,whoseguidance,support,andpatiencewereinstrumentalinbringingthisworktofruition.Sridhargavemetremendousfreedomtoexploreandtrynewideas,whichhashadanessentialroleinmygrowthasaresearcher.ThankyouSridhar.DuringmygraduatestudiesatUMassIhavehadtheopportunitytocollaboratewithAndyBarto.IhavefoundAndyanoutstandingandvisionaryresearcher,andawonderfulhumanbeing.Itwasagreathonorandarealpleasureformetohavehimasamemberofmythesiscommittee.Iamalsoindebtedtotheothermembersofmycommitteefortheirpatienceinread-ingdraftsofmythesis,theirinsightfulcomments,andtheirstimulatingquestionsduringmydefense.IthankVictorLesserforhisconstantsupport,andforhelpingmebetterunderstandresearchdirectionsinmulti-agentsystems;andWeiboGongforinspiringcon-versations.ImustthankDoinaPrecupheartilyforherunwaveringsupportwhilealongvisadelayhadinterruptedmyresearchandalmosteveryotheraspectofmylife.Itisamazinghowone’scareeranddignitycanfallatthemercyofsuchaseeminglybanaluncertaintyasavisadelay.Iamindebtedforhersupportatsuchatime:shemadeeveryefforttomakemefeelpartofthecommunityatthecomputersciencedepartmentatMcGilluniversity.Manyothershavesharedtheirinsightsandcontributedtothedevelopmentoftheideasinthethesis.IespeciallythankBalaramanRavindranandmyoldbuddyKhashayarRohan-vimaneshformanyusefulconversationsandmoreimportantfortheirpreciousfriendship.IthankAndyFaggandMikeRosensteinforexposingmetoawidevarietyoftopicsincontinuousstateandactionreinforcementlearning.IneverforgetAndy’sfriendship,hisdown-to-earthmanner,andhistastyandfreshsalsas.IthankMikewhomadeorganizingaworkshopatAAAI-2004ajoyfulandeducationalexperienceforme.IwanttothankCaroLocusandAliM.Eydgahi,myM.S.andB.S.advisorsfromUniversityofTehran,Iran.Theytaughtmehowtobearesearcher,howtobetterexpressmyideas,andhelpedmeinwritingmyﬁrstresearchpapers.IalsowanttothankAbdolEsfahanianwithoutwhomitwouldnothavebeenpossibleformetopursuemyeducationintheUnitedStatesofAmerica.IwouldliketothankallthemembersoftheAutonomousLearningLaboratoryatUMass,pastandpresent,fortheirfriendship,fortheirconstantsupportandencourage-ment,forgivingusefulfeedbackduringmypracticetalksandlab-meetingpresentations,andﬁnallyfortakingcareofmycubicleduringmyunwantedone-yearabsence.ThankyouColinBarringer,JadDavis,AndyFagg,JeffreyJohns,AndersJonsson,GeorgeKonidaris,VictoriaManfredi,AmyMcGovern,SarahOsentoski,TedPerkins,MarcPickett,Balara-manRavindran,KhashayarRohanimanesh,MikeRosenstein,SuchiSaria,AshvinShah,Özgür¸Sim¸sek,AndrewStout,ChrisVigorito,andPippinWolfeformakingourlabsuchanexcellentandenjoyableenvironmentforresearch.IamalsogratefultothemembersofoursmallAutonomousAgentsLaboratoryatMichiganStateUniversity,withwhomIlearnedaboutnewresearchdirections,openprob-lems,andsolutiontechniquesinArtiﬁcialIntelligence,MachineLearning,andReinforce-mentLearning:NataliaHernandezGardiol,RajbalaMakar,SilviuMinut,KhashayarRo-hanimanesh,andGeorgiosTheocharous.Iamproudtobelongtoanintellectualcommunitythattreatshopeful,younggradu-atestudentswiththesamerespectasseniorresearchers.Someofthemembersofthiscommunitywhohavebeenparticularlyhelpfulandkindtome,andtheirusefulcommentsvicontributedtothequalityofthisdocumentareDavidAndre,BernhardHengst,ShieMan-nor,DoinaPrecup,RichardSutton,andPrasadTadepalli.ThematerialinthisworkisbaseduponworkcarriedoutintheAutonomousAgentsLaboratoryintheDepartmentofComputerScienceandEngineeringatMichiganStateUniversity,undertheDARPAcontractDAANO2-98-C-4025,andtheAutonomousLearn-ingLaboratoryintheDepartmentofComputerScienceatUniversityofMassachusettsAmherst,undertheNASAcontractNAg-1445#1,andtheNSFgrantECS-0218125.viiABSTRACTHIERARCHICALREINFORCEMENTLEARNINGINCONTINUOUSSTATEANDMULTI-AGENTENVIRONMENTSSEPTEMBER2005MOHAMMADGHAVAMZADEHB.Sc.,UNIVERSITYOFTEHRAN,IRANM.Sc.,UNIVERSITYOFTEHRAN,IRANPh.D.,UNIVERSITYOFMASSACHUSETTSAMHERSTDirectedby:ProfessorSridharMahadevanThisdissertationinvestigatestheuseofhierarchyandabstractionasameansofsolvingcomplexsequentialdecisionmakingproblemssuchasthosewithcontinuousstateand/orcontinuousactionspaces,anddomainswithmultiplecooperativeagents.Thisthesisde-velopsseveralnovelextensionstohierarchicalreinforcementlearning(HRL),anddesignsalgorithmsthatareappropriateforsuchproblems.Ithasb