基于移动通信数据分析与利用问题的研究摘要本文首先利用单连接分层聚类的方法,对移动公司300名用户进行分类,并且对基站设施布置的合理性进了充分讨论并提出改进方案。在问题(1)中,首先,采用单连接分层聚类的方法,按照基站地理位置的特征,将基站划分为四个归属地域。其次,统计出每名用户使用频率最高的基站,并将此基站归属地作为该名用户的归属地。然后,设定市话、长途和长途加漫游的三种通话类型,根据每次通话的主叫用户归属地、被叫用户归属地和使用基站归属地,确定此次通话的通话类型。最后,统计出每名用户的三种通话类型的通话次数,将其使用频率最高的通话类型作为该用户的类型。分类的最终结果见模型的建立与求解部分列表。在问题(2)中,考虑到减缓通信设备工作压力,为移动公司拟定的优惠项目为:在通信低峰时段,用户可以享受较低收费标准。确定优惠时段的步骤为:第一步,将一天分为十二个时间段。第二步,统计出十天之中300用户在各个时间段内的通话总时间。第三步,比较各时段的通话时间。最终得出优惠时间段为0点到8点。将新推出的通信业务定为:办理该业务的用户在进行长途通话时可以享受较低收费标准。根据问题(1)中分类结果,将长途型用户确定为该业务的使用对象。在问题(3)中,基于社会效益的最大化,将基站进行调整。首先,结合基站信号辐射范围和基站地理分布,增减基站,以确保该地区无信号盲区且信号不重叠。其次,以基站使用人数作为特征值,对基站分层聚类。分类结果为:使用率高的基站是使用率一般的基站是使用率低的基站是最后,将使用率高的基站周围增加新基站,降低其工作压力。调整结果为:在问题(4)中,结合生活实际和建模结果,为该移动公司经理提出切实可行的建议。最后,在对模型的优点和缺点进行综合评价分析的基础上,提出模型的推广方案。1.问题的重述现代通信技术的快速发展拉近了人与人之间距离,移动电话现已成为人们生活中不可缺少的用品之一,将我们紧密地联系在一起,使其形成了一个巨大的社交网络。然而,社会的需求对当前的通信设备与通信业务的技术和管理水平提出了更高的要求。对于移动通信运营商来说,如何对现有的通话记录数据进行分析处理、充分合理地利用,以有利于运营商的技术改造、拓展新业务、提高服务水平,为科学合理决策提供决策依据。这也是各移动通信公司所面临的一个重要研究课题。附件中给出了一家移动通信公司2010年6月记录某地区300个用户10天内的通话数据信息,请分析研究下列问题:(1)对这些通话数据进行分析处理,通过数学建模方法对用户进行合理地分类,并说明其分类特征。(2)移动公司拟针对部分用户推出一项新的通信业务和一项优惠业务,帮助分析公司应如何选择各类用户作为使用对象,给出选择方案,并说明其理由和依据。(3)根据基站设施分布图,分析其设置的合理性,并说明改进的理由和依据。(4)结合建模分析结果,给该公司经理写一份不超过一页的建议书。2.模型的假设与符号说明2.1模型的假设1.基站信号覆盖面积为基站所在经纬线交织形成的方形地域。2.移动公司用户作为被叫通话免费。3.该300个客户数据真实可信,能够代表该地区移动用户通信情况。4.将用户使用频率最高的基站的归属地域作为该用户的归属地域。5.。2.2符号说明ijd点i和点j之间的欧氏距离ixix分别为点i和点j的横坐标iyjy分别为点i和点j的纵坐标1G2G分别为1、2两个点群12GGD1、2两点群之间的欧氏距离3.问题的分析3.1对公司用户的分类及分类特征的确定根据在通信过程中用户双方使用基站的位置,本文将用户分为三类:市话型、长途型和长途加漫游型。在此给出市话、长途和长途加漫游的通话类型的定义:市话是指通信用户双方属于相同归属地域的用户,而且通话地点均在归属地内的通话类型;长途是指主叫用户与被叫用户属于不同的归属地域,并且主叫通话地点在其归属地域内的通话类型;长途加漫游是指主叫用户在其归属地域之外通话的通话类型。3.1.1对该地区基站设施的归属区域的划分在基站位置分布图上建立直角坐标系,确定各基站地理位置的坐标如图1:024681012024681012图1运用单连接系统聚类的方法对基站进行归属地域划分。具体步骤如下:步骤一:确定坐标系内各点间距离量度ijd。以欧氏距离作为基站地理位置相近程度的量度标准,则22()()ijijijdxxyy。步骤二:计算出坐标平面内各个点之间的欧氏距离ijd,并比较得出最小欧氏距离ijMind([0,12],[0,12])ij。再将ijMind对应的两点i点和j点聚为一类。步骤三:点群与点、点群与点群之间的聚类。运用单连接法,将点群与点群之间、点群与点之间的相关性量度标准设定为两个点群之间所有点的欧氏距离的最小值12GGD,将其作为点群与点群或点间的欧氏距离。计算出各点群之间、点群与点之间的欧氏距离,并比较出对应最小欧氏距离的几组点群,将其划分为同一类别。步骤四:按照步骤三的操作过程,循环聚类,直到聚合成为合理的类别。经过MATLAB编程,得出基站聚类结果如图2:024681012024681012图2因此,可以确定基站归属地域为:属于归属地域1的基站是1号、2号、3号、4号、5号、6号、30号基站;属于归属地域2的基站是7号、8号、9号、10号、11号、12号、13号、14号、28号、29号基站;属于归属地域3的基站是15号、16号、17号、18号、19号基站;属于归属地域4的基站是20号、21号、22号、23号、24号、25号、26号、27号基站。3.1.2对300名用户归属地域的划分将每名用户每次通话所使用的基站编号进行统计,找出该用户使用次数最多的基站,设定此基站归属地域即为该用户的归属地域。用户归属地域如下表:3.1.3对于通话的类别判定根据每次通话的主叫编号、被叫编号和主叫基站编号,统计得出每次通话的主叫所属地域N,被叫所属地域P和使用基站的归属地域Q。由通话类型的设定可知:若满足N=P=Q,则此次通话为市话;若满足N=P=Q,则此次通话为长途;若满足N=P,则此次通话为长途加漫游。由此可以得到6221次通话的通话类型。3.1.4对于用户所属类别的划分按照通话类别,将每名用户的通话统计成为市话、长途和长途加漫游三类。再分别对相同通话类别的通话时间进行相加,计算得到每名用户在10天之中市话通话的时间t1、长途通话的时间t2和长途加漫游通话的时间t3。表格:用户类别,t最大值=t1或2或3.用户的分类如下表所示:3.2制定优惠项目和一项新业务,确定使用对象3.2.1优惠项目的确定推出的优惠业务是用户在通话低峰时间段通话可以享受较低收费标准的业务。由于一天之中存在通话高峰和通话低谷,对于在通话低谷时通话的用户实施较低收费的优惠业务可以有效激励用户减少在高峰期的通话时间,增加用户在通话低谷时间段的通话时间,从而合理分配通讯设备的工作压力。确定通话高峰与低谷的方法:将每天分为十二个时间段,每两小时为一段,通过MATLAB编程,统计出各个时间段内300个用户的总通话时间,全天十二个时段通话总时间柱状图27238261392464314029513735513824014575313576611499410541911062326251020000400006000080000100000120000140000160000时间段通话总时间/秒0-22-44-66-88-1010-1212-1414-1616-1818-2020-2222-24图3据此确定通信繁忙程度在一天之中的分布,从而确定优惠时间段为0点到8点。3.2.2新通信业务的制定及使用对象的确定由3.1求解结果可以得到用户按照市话型、长途型和长途加漫游型的分类。将该地区划分为四个归属区域,从而确定每名用户的归属地。再根据每次通话的主叫与被叫的位置,判定各次通话所属的通话类型。统计出每名用户三种通话类型的通话时长,进而确定用户所属类别。问题(2)的分析问题(2)要求提出一项优惠业务并且针对部分用户推出一项新的通信业务首先,推出的优惠业务是用户在通话低峰时间段通话可以享受较低收费标准的业务。由于一天之中存在通话高峰和通话低谷,对于在通话低谷时通话的用户实施较低收费的优惠业务可以有效激励用户减少在高峰期的通话时间,增加用户在通话低谷时间段的通话时间,从而合理分配通讯设备的工作压力。确定通话高峰与低谷方法为:将每天分为十二个时间段,每两小时为一段,通过MATLAB编程,统计出各个时间段内300个用户的总通话时间,建立相应的直方图,得到通信繁忙程度在一天之中的分布,从而确定优惠时间段。不过一般而言此项优惠是针对所有用户的,但是也可以针对不同用户实行高、低峰时段差别收费,进一步鼓励长话用用户使用该公司的业务。其次,根据问题(1)聚类结果可以确定月通话时间较长的用户,所以,新的通话业务可以为:在一定的标准范围内,所有用户按统一标准收费,超出部分按照分段的收费原则计费。问题(3)的分析问题(3)要求根据基站设施位置分布图和用户所使用基站的数据进行综合分析,评价基站设施位置分布合理性并给出改进方案。合理的基站设施位置分布应满足两个条件:第一,该基站在各个时刻的使用人数的分布应该尽量均匀;第二,各个基站的工作量应该尽量接近设备最大工作限额且不超过其限额,以使得设备利用率最大。通过MATLAB编程,得出每个设备在各个时刻的工作量分布情况,再结合基站设施位置分布图,对基站位置作出综合评价。对于不合理的基站设施的改进方案可以是将利用率低的基站拆除,与周围基站合并或建立新的基站。4.模型的建立与求解问题(1):将数据通过Matlab编程,统计出300个用户在十天内作为主叫的通话总时间和通话的次数进行统计。每个人的通话总时间010002000300040005000600070008000114274053667992105118131144157170183196209222235248总时间将数据通过Matlab编程,统计出300个用户在十天内作为被叫的通话总时间和通话的次数进行统计。利用系统聚类法对300个用户进行分类,然后分别提取其特征。建立如下模型:(1),minikljkjilpGpGDd(kjjDGG(1)k表示、的距离)运用层次聚类进行聚类。具体步骤为:第一步,以用户代号为横坐标,该用户作为主叫的通话总时间为纵坐标建立平面坐标系,则在此坐标系中每名用户可用一个点表示。第二步,用欧氏距离度量法选择特征向量。将各点间纵坐标的距离作为评判各点是否为一类的标准,将纵坐标间距离较近的点作为一类,再将各类中与等待分类的点G的纵坐标距离最近的点A选出,将A纵坐标与点G的纵坐标作比较,确定G的分类。通过MATLAB求解得到如下表格:第三步,将用户被叫的通话时间作为纵坐标,按第一和第二步求解,得到300个用户以被叫通话时间和被叫次数的分类。最后,检验分类合理性。运用MATLAB编程,将三类用户的通话时间与该类别的用户编号统计整理如下图,可以看出每类用户所用时间均匀稳定,因此可知分类正确。第一类用户:短话型1458111617212226273031333439454648505155565760626364686970717274788081848589919293949596979899100105106109110113114116123130131133134136137138142143145147151154155156157166168169173175177179182184185189191192196197198199200201202204205206207208210211213218219220222223225226227229231232233235237238239240241242245247248249250251252254256261265267268270272273274275280281282283284285288289291294295296298299第二类用户:普话型236101213141819232