第2章生物信息学的计算机基础3(2)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2019/8/161IP地址由国际组织按级别统一分配,机构用户在申请入网时可以获取相应的IP地址。1)NetworkInformationCenter(NIC)。最高一级IP地址由国际网络信息中心(NIC)负责分配。其职责是分配A类IP地址、授权分配B类IP地址的组织并有权刷新IP地址。2)InterNIC、APNIC和ENIC。分配B类IP地址的国际组织有三个:ENIC负责欧洲地区的分配工作,InterNIC负责北美地区,设在日本东京大学的APNIC负责亚太地区。我国的Internet地址由APNIC分配(B类地址),由邮电部数据通信局或相应网管机构向APNIC申请地址。3)分配C类地址。由地区网络中心向国家级网管中心(如CHINANET的NIC)申请分配。2019/8/162域名系统(domainnamesystem,DNS)域名末尾部分为一级域,代表国家或机构等节点;域名的倒数第二部分为二级域,代表部门或隶属于一级域的下级机构;如:其中•cn为最高域,代表中国•edu.cn为第二级域,代表中国教育与科研网•njfu.edu.cn为第三级域,代表南京林业大学2019/8/1632.2.7与Internet的连接方式用户终端远程服务器ModemModem电话线局域网远程服务器专用通信线路路由器拨号上网连接局域网直接连接2019/8/1642.2.8Internet提供的服务主机远程登录FTP:远程文件传送E-mailFTP(文件转输协议)安装和使用Serv-U(Ftp服务器软件)安装和使用AbsoluteFtp(Ftp客户端软件)USENET:电子公告板2019/8/165(worldwideweb)由欧洲粒子研究中心发起。其初衷是为了让科学家们以更方便的方式彼此交流思想和研究成果,目前已成为一种最受欢迎的游览工具。主要由一些应用软件以及一系列协议和约定组成,使用超文本和多媒体技术,在计算机网络上进行超文本信息的发布和浏览。2019/8/166提供:文本、图像、声音和视频等信息也提供基本的Internet服务2019/8/167使用的几项关键技术和基本元素包括:1.HTML(hypertextmarkuplanguage,超文本标记语言)设计HTML语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具体信息是在当前电脑上还是在网络的其他电脑上。这样你只要使用鼠标在某一文档中点取一个图标,Internet就会马上转到与此图标相关的内容上去,而这些信息可能存放在网络的另一台电脑中。HTML可以说明文字、图形、动画、声音、表格、链接等。2019/8/1682、URL(uniformresourcelocator,统一资源定位器)是上简单的寻址机制,使得W能够连接世界各地计算机上的信息。URL的格式从左到右由下面各部分组成:模式、服务器地址、端口、路径等组成。3、HTTP:是浏览器和服务器之间传送消息的协议,它基于客户机/服务器模型的信息分布方式,按原本设计意思“请求/响应模型”,即信息文件存放在服务器上,用户通过程序向服务器发出请求并访问服务器上的数据。2019/8/16104.MINE类型:计算机上的数据文件只是二进制数位的集合,必须经过解释才有用。例如,为了正确显示文件“index.html,浏览器必须知道它是HTML格式。2019/8/16115、网页网页是用户通过客户端浏览器观察到的超文本信息内容。简单的静态网页图文并茂网页动态网页2019/8/16122.3Internet上的高级信息管理Web上的数据最大特点就是结构化特征较弱.往往是半结构化的,有时还可能是无结构的。为有效利用上的数据,需要处理半结构化数据源,解决半结构化数据的查询与集成问题。寻找一个半结构化的数据模型是解决问题的关键所在。2019/8/1613从(extensiblemarkuplanguage)以XML为基础的新一代中的信息共享与交换,XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确的查询与模型抽取。2019/8/1614XML是由W3C设计的一种元标注语言,可提供资料的结构化描述能力。具体来说,XML类似于HTML,被设计用来描述数据,但XML提供了一种独立的运行程序的方法来共享数据。XML与HTML更大的区别可能体现在它明确地区分了文档的内容和表现这两个概念。XML文档专注于内容,而这些内容的表现则有相应的扩展样式表XSL来规定。因此,同样的内容可以有不同的表现,甚至还能够对内容进行不同的取舍。2019/8/1615在寻求有效管理网上海量信息的探索中,人们还提出了数字图书馆的解决方案。数字图书馆可理解为有组织的信息收藏及相关服务,信息以数字化形式保存,并通过网络进行访问。数字图书馆包含各式各样的可用数据,供不同用户使用,规模可大可小,并可使用各类计算设备和相关软件。但所有数字图书馆都有着共同的特点:信息在计算机内得以组织并通过网络加以利用,数字图书馆带有选择信息、组织信息、存储信息和发布信息的程序。2019/8/1616建立数字图书馆的主要原因是人们相信数字图书馆能够比过去的模式更好地应用信息。其潜在的优点有:(1)可及时获取世界任何地方发布的信息;(2)强大的信息搜索和浏览能力;(3)信息共享和信息交流;(4)易于保持最新信息;(5)支持数据模型、应用程序、仿真软件等新型信息。2019/8/16172.4JAVA及移动计算从事生物信息学研究与开发,一般需采用计算机软件从大量的数据中筛选出所需信息。目前有多种计算机程序设计语言可供用户选择。如VisualBasic语言、C语言、Perl语言、PHP语言、Java语言和FORTRAN语言等。其中,Perl和PHP两种语言因为执行效率高、可移植性好及在网络上有着丰富的免费代码等特点使得他们成为生物信息学软件编程的主要脚本语言。2019/8/1618目前,数据库研究和应用中一个很重要的问题就是如何有效地利用既存数据,发现和提取有价值的信息和知识,而不仅仅是处理和保存数据。数据仓库、数据挖掘和数据库中的知识发现就是解决上述问题的重要技术。数据仓库一词尚没有一个统一的定义。著名的数据仓库专家W.H.Inmon在其著作《BuildingtheDataWarehouse》一书中给予如下描述:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持战略决策的制订。2.5数据仓库与数据挖掘2019/8/1619数据仓库概念的两个层次功能上:数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;内容和特征上:数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。2019/8/1620数据仓库的组成:数据库为整个数据仓库环境的核心,是数据存放的地方,其提供对数据检索的支持。相对于操纵型数据库来说,其突出特点是对海量数据的存储和快速的检索技术。数据抽取工具、元数据、访问工具、数据集市、数据仓库管理、信息发表系统2019/8/1621数据挖掘的概念:就是从数据库中抽取具有潜在应用价值的隐含信息的过程。与传统分析工具不同的是,数据挖掘属于基于知识发现的方法,它运用模式匹配和其他算法决定数据之间的联系。数据挖掘技术综合了机器学习、统计分析和数据库技术,主要内容包括规则生成、分类、聚类、序列分析等。2019/8/1622数据挖掘的目的:趋势预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。例子:市场预测问题——数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。2019/8/1623数据挖掘的目的:关联分析若两个或多个变量的取值之间存在某种规律性的现象称为关联,可分为简单关联、时序关联、因果关联目的:找出数据库中隐藏的关联关系。因有时并不知数据库中数据的关联函数,因此关联分析生成的规则带有可信度。2019/8/1624数据挖掘的目的:聚类分析数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。2019/8/1625数据挖掘的目的:概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。2019/8/1626数据挖掘的目的:偏差检测数据库中的数据常有一些异常记录或称为偏差。偏差包括很多潜在的知识,如分类中的反常实例、不符合规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。2019/8/16272019/8/16282.6其他的计算机知识2.6.1算法和算法分析2.6.2相似性度量2.6.3配对算法2.6.4分类与聚类2.6.5隐马尔可夫模型2.6.6人工神经网络2019/8/16292.6.1算法和算法分析生物信息学中涉及大量的计算,不可避免地用到算法的概念。算法是一个定义良好并会终止的计算过程,它接收一组输人数据并输出一组数据。算法的好坏一般是通过称作算法分析的过程来评定的。算法分析是一种在抽象的计算模型上对算法所需资源进行评估的过程,它有助于比较某个问题的不同求解算法的资源耗费,剔除无效方案而不用真正地编写程序,更不必在计算机上实际运行。算法的复杂度是指当问题的规模增大时,算法的代价增长的速度。复杂度研究中所谓的代价通常指的是算法所用的时间和所要的储存空间,即算法的时空复杂性。2019/8/16302.6.2相似性度量序列比较,包括同一序列内不同片断的比较和多个序列的对比在生物信息学工作中占有重要的地位。一般而言,在涉及两个对象的比较和匹配问题时,需要度量(或距离)的概念。例如,生物信息学工作中广泛存在的序列和结构的相似性计算就需要考虑度量或距离函数的问题。2019/8/1631对于DNA或蛋白质序列,可以根据字符串来构造距离函数。从生物学的意义上来说,核酸和蛋白质序列对位的基础是假定这两个序列同源,但在各自的演化过程中由于变异的积累形成了不同的序列。如果将每个序列看做是有限字符集组成的字符串,那么变异就能够借用字符串的编辑(插人、删除、修改)来体现。于是,编辑距离就是一个最简单判定序死相似度的指标。所谓编辑距离指的是一个字符串变到另一个字符串时插人、删除和置换的最少个数。2019/8/16322.6.3配对算法选择合适的相似性度量是成功的第一步。在此基础上找出序列最佳配对的算法设计才是开启成功之门的钥匙。遗憾的是,由于“组合爆炸”的原因,序列的配对无法通过穷尽的搜索获得“最佳”的结果。只能通过一些启发式的方法获得“可满足的”解答。或在一定的计算代价下寻求较好的结果。2019/8/1633为了尽快定位候选序列,排除无效的配对,可以在数据库中使用索引技术或其他的一些限制。这是一种启发式的方法。以BLAST为代表的一些算法为例,事先对数据库中的所有序列按一定的长度(如DNA序列长度取11,蛋白质序列长度取5)提取类型特征并建立索引。同时,对提交的序列按同样的方式提取特征。依靠预先建立的索引,只有那些与提交序列的特征兼容的库中序列才参与比较,这可大幅度地减少

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功