深圳北大青鸟嘉华学校–以就业为导向,学习零起点,是深圳高端IT职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)广告屏蔽软件开发技术方案【摘要】广告、垃圾网页充斥Internet,给用户浏览造成了极大的不方便,而且极大的消耗了网络的带宽以及终端用户系统的资源。本技术方案在参考研究比较大量广告屏蔽技术后,提出了一种基于关键词列表以及BHO(BrowserHelperObjects)的垃圾网页过滤方案。【关键词】垃圾网页广告屏蔽BHOHOOK一、概述目前网络上流行的广告技术主要有分为以下三种:弹出式窗口,浮动式窗口以及内嵌式广告图片。大量不必要的信息占满了整个显示区域,使得有效信息的获取变得很难。这些垃圾网页主要都是依靠JavaScript(简称JS)实现的。这种脚本语言是在客户端下载完成后,由客户端的JVM解释执行的。因此它是一种客户端执行的语言,即runatclient。其中,弹出式与浮动式窗口主要是由window.open()或者window.showModelessDialog()等创建新窗口等命令完成的。而内嵌式广告图片则是由其编写的一些特效函数做到的。和样式表文件(CSS)相似,这些运行的代码未必直接写道用户所访问的网页之中,他可以通过如scriptlanguage=javascriptsrc=example.js/script形式的连接隐藏在后台,直接对所下载到的HTML文档进行分析并不能完全有效的屏蔽这些语句。接下来将对国内外研究现状具体的实现技术进行叙述。二、国内外研究现状垃圾网页过滤技术发展到现在已经很成熟了,各大公司的产品的准确率和招回率都已经能达到很高的水准。目前在这个领域比较领先也比较流行的几款软件有MicrosoftIE6.0中自带的网页过滤组件,Maxthon公司的Maxthon以及MyIE2系列浏览器中附加的垃圾网页过滤插件,GoogleToolbar也具有网页过滤功能;国内在这领域的软件也有很多,如3721上网助手,雅虎助手以及百度工具栏都有这方面的功能。在大多数软件中用户都可以设置网页过滤的级别,如只过滤弹出网页,过滤浮动窗口,或者过滤所有的广告,包括页面当中的flash动画以及Gif动画。由于上述公司的实现技术相对保密,在相对比较短的时间内很难了解到他们实现的核心技术。但通过这几天对这几款软件的使用与分析,发现他们主要是使用垃圾网页关键词列表技术实现的。如Maxthon浏览器中的广告猎手就维护了一个专家关键词列表。在下载网页并执行其中的JS代码时,浏览器将对JS指定需要下载的连接进行过滤,如有与关键词列表项符合的链接则取消其下载(具体取消方法将在下一章进行介绍),并将所取消的连接写入相应的数据存储文件中,并在过滤网页列表中加入该记录。用户只需双击该条记录就可以重新加载该页面。其他的过滤技术也都大同小异,在此就不再复述了。三、实现技术3.1预备知识经过对现存的网络产品的比较,本文将采用基于关键词列表以及BHO的技术实现对垃圾网页的过滤。下面现介绍一下BHO。BHO(BrowserHelperObjects)是浏览器帮助对象,是一种实时组件对象模型(in-processCOM)。浏览器将会在每次打开的时候加载它。BHO和浏览器运行在相同的内存区域,并且可以对窗口及其模型作任意的操作。例如,它可以检测到浏览器的后退、前进和文件完成等事件,访问浏览器的菜单和工具栏而且可以进行改动,在当前页面创建窗口等操作,简而言之,BHO就好像一个我们派去的间谍,监视并控制着浏览器的动作。因此我们要进行IE开发,BHO应该是我们最得力的助手。深圳北大青鸟嘉华学校–以就业为导向,学习零起点,是深圳高端IT职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)浏览器访问网页是按照一下这个过程进行的:Navigate-NavigateComplete-DownloadBegin-DownloadComplete-DocumentComplete我们所使用的BHO就好像钩子(HOOK),可以hook到这些典型的IE事件当中。我们也正是通过控制这些事件进行过滤。3.2总体设计广告过滤插件弹出式窗口过滤模块浮动式窗口过滤模块网页内容过滤模块数据存储模块关键词维护模块用户接口模块广告过滤插件结构图上面是广告过滤插件的结构图。由于对弹出式窗口、浮动式窗口和网页内容中的广告图片的过滤方法有所不同,而且需要根据用户的配置进行选择过滤,本文将这三种过滤方式化分为三个模块进行实现。数据存储模块是用来存储被过滤网址的相关信息,其中包括过滤网址的类型(弹出式窗口,浮动式窗口还是网页内部图片),当前的屏蔽时间,其网址的URL还有过滤规则。将其按照一定的格式存储在数据文件中,以备读取。关键词维护模块主要用来维护过滤规则关键词,它包括系统默认的专家关键词,以及用户通过用户接口注册的新关键词,还有维护在线更新关键词列表(将在随后介绍)。用户接口主要负责用户对过滤级别的选择,过滤网址列表的查询及招回,以及用户自定义关键词的添加与维护。下面将就具体模块的功能与实现进行详细介绍。3.2.1弹出式窗口过滤模块弹出式窗口的过滤方法很多,主要分为一下几类:1.根据窗口外观,如样式、类名、大小判断(弹出式窗口一般不包括状态栏,菜单栏或工具栏)。2.利用BHO拦截在DownloadBegin和DownloadComplete之间的弹出事件,不允许弹出新窗口。3.对URL进行过滤,拦截可以网址的下载。经过对各种方法的比较,本文将采用BHO拦截与URL过滤相结合的方法进行对弹出式窗口的过滤。在BHO中,所有的弹出页面都是通过OnNewWindow2(LPDISPATCH*ppDisp,BOOL*Cancel);打开的。但是如果其第二个参数Cancel=True,浏览器就不可以打开新的窗口了。下面我们看一下浏览器弹出窗口的过程:OnDownloadBegin-发现window.open等Js或者vbs-OnNewWindow2()-OnDownloadComplete首先在BHO里利用IObjectWithSiteImpl::SetSite获得IWebBrowser2指针,然后利用Invoke处理,可以在浏览器OnDownloadBegin的事件中将一个外部信号量设置为True,而在OnDownloadComplete事件中将他设置回False,并在OnNewWindow2()中添加如下代码:Cancel=(所设置的信号量);这样就可以在网页下载的过程中防止新窗口的打开。同时,在这个过程中,还要对每个所要下载网址的URL进行关键词匹配,如果有关键词匹配成功,同样取消下载。这是为了防止一些特殊的网页的弹出技术为我们现深圳北大青鸟嘉华学校–以就业为导向,学习零起点,是深圳高端IT职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)在未知的。这个关键词列表有系统自带,并采用WebService技术定期通过官方网站服务器定期更新。最后还要将过滤的网址信息交由数据存储模块保存,以备查阅和招回。3.2.2浮动式窗口过滤模块浮动式窗口主要采用HTML语言中的div定义一个层,并使用JS使其达到悬浮或者移动等效果。它的主要特征有两个:(1)div的position属性为absolute。(2)其实现的关键词中包含setInterval()等函数。因此我们需要对网页中的这些关键词进行过滤即可。将其层取消显示。同时大多数的浮动窗口都包含动画文件(如.swf、.gif等),我们在实现关键词过滤时同样需要对这些文件进行过滤,并将过滤信息存储到数据模块。3.2.3网页内容过滤模块网页内容过滤主要是针对主页面中的动画文件进行过滤。本文采用的就是关键词过滤。关键词列表是由系统自带的专家关键词列表与用户维护的自定义关键词列表组成。其关键词匹配过程如下:在前文介绍了网页打开的过程,本文利用BHO在浏览器调用IObjectWithSiteImpl::SetSite方法传递对当前浏览器的引用指针给你的程序。然后浏览器调用你的组件的IObjectWithSiteImpl::Invoke,并传递WebBrowserEventsID,因此可以根据EventsID判断浏览器正在做什么,因此可以在这里对下载事件进行过滤。比如在Invoke发生时,ID为DISPID_BEFORENAVIGATE2,则表明浏览器“正要”去浏览某个url。如果在这里对其处理,就可以实现禁止浏览某些URL。要实现对文件下载的禁止,我们需要截获EventsID是否是DISPID_DOWNLOADBEGIN,并在这里“欺骗”一下IE,让他结束下载。为此需要实现IInternetProtocolRoot接口的Start方法:HRESULTStart(LPCWSTRszUrl,IInternetProtocolSink*pOIProtSink,IInternetBindInfo*pOIBindInfo,DWORDgrfPI,HANDLE_PTRdwReserved);其第二个参数(IInternetProtocolSink*pOIProtSink)用来判断下载是否结束。因此我们首先判断szURL能否与关键词列表项匹配或者包含.swf以及.gif等文件,如果匹配成功,即该网址包含违禁关键字,则调用IInternetProtocolSink::ReportResult方法将Start方法的第二个参数设置为真(pOIProtSink-ReportResult(S_OK,0,NULL);),这样就是现了“欺骗”IE,在下载文件之前就结束了其下载。同时我们还需也将被过滤的网址添加到数据存储文件中,整个过滤过程就完成了。3.2.4数据存储模块数据存储模块将实现对过滤网址的类型(弹出式窗口,浮动式窗口还是网页内部图片),当前的屏蔽时间,其网址的URL还有过滤规则按照一定格式存储到文件当中,并能够按照需要进行读取。其实现主要通过特定格式的读写文件。3.2.5关键词维护模块该模块管理过滤关键词,并通过WebService与官方服务器交互,定期更新关键词列表,实现系统的自动更新。3.2.6关键词维护模块用户接口主要负责用户对过滤级别的选择,过滤网址列表的查询及招回,以及用户自定义关键词的添深圳北大青鸟嘉华学校–以就业为导向,学习零起点,是深圳高端IT职业技能培训学校领导品牌!培训项目:高端软件、网络工程师(可通过搜索引擎检索“深圳北大青鸟嘉华学校”进入学校网站)加与维护。用户可以通过双击过滤网址列表项招回被过滤网页。下面就是整个系统的数据流图:过滤模块弹出式窗口过滤模块浮动式窗口过滤模块网页内容过滤模块关键词维护模块弹出窗口关键词列表浮动式窗口关键词列表网页内容关键词列表BHOIE用户接口数据存储InternetWebServiceServer数据流图本软件将普通屏蔽技术与关键字过滤相结合,可以处理一些其他网页过滤软件处理不了的情况,比如有种弹出窗口Maxthon就没有办法过滤,它使用Timeout()函数将window.showModelessDialog()的执行延后几秒钟,这样在DownloadComplete事件结束后才触发此事件。在本软件中,系统可以将此类网页当作特例由用户提示添加到关键词列表里面,如此可以禁止此类窗口的再次弹出。四、总结由于时间比较仓促,查阅资料的范围也不够,因此总体设计比较简单。如果需要具体实现将会对系统进行充实。本系统预计完成时间需要一个月左右。有不正确的地方还请周先生指正。