芄《多媒体素材采集与处理》实验教学指导书罿一、实验目的:膆学会使用扫描仪获取书页影像并将之转换为电子文档;掌握图像、音频多媒体素材的采集与编辑方法。膃二、实验内容:蚃1.学会使用扫描仪扫描影像的方法。虿2.掌握扫描软件Scanwizard5、OCR软件尚书七号的使用芇3.掌握在Windows环境下录制、播放和编辑声音文件的方法。薆4.掌握Goldwav音频录制和编辑技巧。肃三、实验仪器设备:蒀MicroteckScanMaker3860扫描仪、计算机、耳麦。艿四、实验原理:蚄扫描仪是一种获取影像的装置,并将之转换为计算机可以显示、编辑、储存和输出的数字格式。这里所说的影像是指照片、文字页、图形和插画等,甚至如硬币或纺织品等三维物件都算是影像的一种。实际上,这意味着扫描仪可以完成以下工作:薂在文件中结合美术图形和照片。膀将印刷文字扫描输入到文书处理软体中,免去重新打字。肆将传真文件扫描输入到数据库或文书处理软体中储存。肇在多媒体中加入影像。羁在摘要中结合影像资料使其能更有效的表达主题。羀扫描仪可区分为两种类型:膈平台式扫描仪,用来扫描照片和印刷品.平台式扫描仪都具有一个玻璃面,用来摆放扫描稿件。膅透射式扫描仪,用来扫描幻灯片和底片。蚅在我们实验中使用的中晶MicroteckScanMaker3860是一种典型的平台式扫描仪。蚁在扫描系统中,扫瞄仪仅是组成整个系统的其中一部份,除了扫描仪以外,还需要其它的组件:①一条特定的连接线,连接扫描仪和电脑。②控制扫描仪工作的扫描软件。③用影像编辑软件将扫描影像结合到您的工作中;或用文字辨识软件将扫描文字结合到您的工作中。④一个合适的屏幕用来显示彩色或灰阶影像。⑤用来输出您工作成果的输出设备,如印打印机。腿工作原理:对原稿进行光学扫描,然后将光学图像传送到光电转换器中变为模拟电信号,又将模拟电信号变换成为数字电信号,最后通过计算机接口送至计算机中。芃扫描仪扫描图像的步骤是:首先将欲扫描的原稿正面朝下铺在扫描仪的玻璃板上,原稿可以是文字稿件或者图纸照片;然后启动扫描仪驱动程序后,安装在扫描仪内部的可移动光源开始扫描原稿。为了均匀照亮稿件,扫描仪光源为长条形,并沿y方向扫过整个原稿;照射到原稿上的光线经反射后穿过一个很窄的缝隙,形成沿x方向的光带,又经过一组反光镜,由光学透镜聚焦并进入分光镜,经过棱镜和红绿蓝三色滤色镜得到的RGB三条彩色光带分别照到各自的CCD上,CCD将RGB光带转变为模拟电子信号,此信号又被A/D变换器转变为数字电子信号。至此,反映原稿图像的光信号转变为计算机能够接受的二进制数字电子信号,最后通过串行或者并行等接口送至计算机。扫描仪每扫一行就得到原稿x方向一行的图像信息,随着沿y方向的移动,在计算机内部逐步形成原稿的全图。肄人耳的听觉特性涉及生理声学和心理声学方面的问题。人耳可听的声音频率范围为20Hz至20KHz,但人耳对不同频率的声音敏感程度是不一样的,中频段(3kHz~5kHz)最敏感,幅度很低的信号都能被人耳听到。低频区和高频区较不敏感,能被人耳听到的信号幅度比中频段要高得多。蒁话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续”是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。羆声音数字化就是将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理,主要包括采样和量化两个方面。数字化音频的质量取决于采样频率和量化位数这两个重要参数。采样频率是对声音波形每秒钟进行采样的次数。人耳听觉的频率上限在2OkHz左右,根据采样理论,为了保证声音不失真,采样频率应在40kHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.lkHz等。采样频率越高,声音失真越小、音频数据量也越大。量化数据位数(也称量化级)是能够用来表示每个采样点的数据范围,经常采用的有8位、12位和16位。例如,8位量化级表示每个采样点可以表示成256个(0-255)不同量化值,而16位量化级则是指每个采样点可表示成65536个不同量化值。量化位数越高,表示区别声音的差别更细致,所以音质越好,数据量也越大。声音数字化信息量=采样频率(Hz/s)×量化位数(bit)×声道数蚆五、实验步骤蒃第一部分:扫描仪的使用膁步骤1.安装ScanWizard5驱动程序肈对于初次使用的扫描仪,请首先打开镜头锁,对于Scanmaker3860来说,镜头锁在扫描仪的底面右下角,首先使用镊子或尖嘴钳把阻挡物拔出,然后把镜头锁开关向外拨动到“ON”的位置。(注:实验用扫描仪均已打开镜头锁,此步可跳过)如下图所示:螄羃按照扫描仪所附的安装指南和光盘片上的安装界面,将ScanWizard5扫描仪驱动程序安装到Windows系统中。(注:本实验所用计算机系统已安装扫描仪驱动,此步可跳过。)羂步骤2.将扫描稿件放到适当位置聿把扫描槁件(照片、书页等)面朝下,放到扫描仪的玻璃面板上,摆放稿件时,尽量靠齐扫描玻璃的一个侧条,可确保稿件的摆入端正。由于扫描仪会生成一个倒立的像,所以放入待扫描材料时,应倒放在玻璃面板上。膇步骤3.执行ScanWizard5扫描软件莂直接在桌面的ScanWizardEasy图示上点两下执行,或从“开始”-“程序”-“ScanWinzard5”开始执行扫描程序。蚂扫描程序的默认界面如下图所示:袆预览:当你一开始进入标准控制模式,程序预设会自动预览你的稿件。假如你想取消此功能,可以从属性中取消即可。到Web按钮:扫描到按钮可以切换为到Web按钮,只要按住按钮两秒钟即会出现副选单.原稿:选择待扫描材料的材质芅扫描类型:输出的色彩位数螂输出目的:图片输出到何处,本实验选择输出到文件腿输出比例:选择输出影像输出尺寸的比例大小.(50%,75%,100%,150%,或200%)羈调整:调整对比度、锐度等莃属性:扫描仪的参数设定.薀界面上的各按钮的功能如下表所示:芈图标莈功能肄芃移动羈/膅缩放(放大/缩小)膃蚃信息按钮蝿芇改变窗口尺寸薅肂切换到高级模式葿芈扫描仪信息蚄薁帮助说明艿肅最小化羁关闭程序肆羀点击按钮后ScanWizard切换到高级模式,界面如图所示:膇膄可根据具体扫描要求选择不同的扫描参数,选用参数时,请注意以下几点:①对于照片,选用300ppi的分辨率即可达到良好的效果,不必选择最高的1200ppi,否则会使扫描出的图像文件过于庞大,甚至会达到上百光兆的大小。②对于大头贴等较小的等扫描材料,可以把缩放比设为大于100%,以使输出图像足够大。③如果待扫描的材料非常多,单张面积又比较小,可以把多张待扫描材料一块放到玻璃面板上,摆放时,注意待扫描材料间留出一定的间距,以便于后期裁切,一次扫描输出,再使用图像处理软件(例如PhotoShop)进行裁切。例如可以玻璃面板上摆放多张照片,然后一次扫描到一张图像上,然后进行裁切。莀步骤4.扫描稿件蚀进入ScanWizard5后,先预览你的稿件,如果发现摆入的稿件不端正,打开盖板,把稿件放正后,再进行预览,直到摆放端正为止。芈步骤5.储存稿件芃根据稿件的材质类型,设定扫描参数。设定完毕后,可以点击“扫描到”按钮直接存档,或是把影像传送到别的地方做其它的应用,如打印机、电子邮件、OCR及Web。肃步骤6.离开ScanWizard5扫描软件只要点击窗口右上角的离开按钮即可。蒀第二部分:OCR软件的使用羆一、获取图像:蚅有两种方式获取图像,扫描图像或打开计算机中已经存在的图像文件。薃扫描图像之前应设置好保存扫描图像文件的路径、图像文件名、图像文件名后缀。设置图像路径,可以直接在窗口中键入路径名,或单击按钮,在浏览路径窗口中选定路径。膁图像名的命名规则为:若干位字母前缀+3位数字,3位数字的范围从000到999,每扫描一幅图像后系统会自动在数字尾数加1,如图像名前缀取“hw”,图像名数字尾数取“003”,图像名后缀取tif,则当前图像名为hw003.tif,下一幅图像名自动改为hw004.tif;如果当前图像名尾数达到最大值,如hw999.tif,则下一幅图像名自动改回为hw000.tif,所以相同路径下相同文件名前缀的文件数最多为1000幅。肇如果扫描过程中弹出“此文件已经存在,是否替换该文件?”提示框,说明该路径下已经存在同名的旧图像文件,如果旧图像文件不再需要,择选择“是”,以新扫描的图像替换旧图像;如果还需要旧图像文件,则选择“否”,并在“另存到”窗口中重新设定路径或图像文件名。不同批次的扫描图像最好分别保存于不同的路径之下,或者在相同路径下而选取不同的图像名前缀,以防止相同路径下相同文件名前缀的文件数超过1000幅。螃图像文件名后缀只能取bmp,tif,jpg三种图像格式,一般情况下,黑白二值图像保存为tif格式,灰度彩色图像保存为jpg格式将占用较少的硬盘空间。例如,C:\hwocr\image\hw003.tif是一个完整合法的图像文件名。羂单击工具栏上的按钮或单击“文件”菜单中的“扫描”命令,通过扫描仪开始批量扫描文件;单击工具栏上的按钮或单击“文件”菜单中的“打开图像”命令,打开计算机中已经扫描好的图像文件。蚇二、图像处理:膈为提高识别率,对图像进行图像反白,自动倾斜校正,调整边框,去噪音(如麻点、下划线等),表格画线等处理。膆三、版面分析:莂单击工具栏中的按钮,或单击“识别”菜单中的“版面分析”命令,自动对图像的版面布局、内容进行分析理解,切分图像页,判别图像框的版面属性(横栏、竖栏、表格、图像),并以不同颜色的线框标识图像框属性。对分析错误的版面可以手动调整,方法为,先以鼠标选中需要调整的版面块,再调整版面块的边框改变大小,或单击工具栏上的属性按钮(横栏、竖栏、表格、图像)改变该版面块属性。蒈四、识别图像:羆单击按钮或单击“识别”菜单中的“开始识别”命令,按照版面属性(横栏、竖栏、表格、图像),自动对图像文件管理器选择的图像进行批量识别。芄五、校对:螁通过对比识别结果文本和原图像,以发现识别错误的文字。用户可按Ctrl+Tab、Shift+Tab组合健直接查找系统用醒目的颜色标出的可信度不高的文字,进行校对。膈六、版面还原:羇单击“输出”菜单中的“到指定格式文件”命令,将识别并修改好的文本输出、还原成可供计算机阅读和查询检索的RTF、HTML、XLS、TXT格式的电子文档。莃七、删除不再需要的数据文件:芀系统在识别处理过程中生成一些数据文件,这些文件和相关的图像文件放在同一文件夹之下,这些文件以对应的图像文件名字命名而分别加上不同的后缀,包括*.bki,*.pst,*.tmp。例如对于图像文件hw003.tif,对应生成的数据文件有hw003.tif.bki(不一定存在该文件),hw003.tif.pst,hw003.tif.tmp。当这些图像的识别结果不再需要时,用户可以使用Windows资源管理器删除这些文件。袈第三部分使用Windows“录音机”录制、编辑声音聿Windows系统提供了方便的声音处理工具,直接利用附件中的“录音机”,就能完成声音的录制、播放和一些简单的编辑功能。螅一、使用Windows录音机录制声音蚀在Windows系统中,可以通过“录音机”录制人的语音、CD光盘音乐和任何可以输入声音卡的外来声音源的声音,并将录制的声音以一种标准文件格式WAV存储起来。虿步骤1.将麦克风的插头插入声音卡的麦克风(MIC)插座,然后试一下麦克风,确保在音箱中能听到麦克风中传出的声音。袃如果听不到麦克风中的声音,则执行“程序”-“附件”-“娱乐”-“音量控制”。将麦克风选项下的静音取消,然后试一下有没有声音。注意,试好声音以后,要将麦克风选项下的静音重新设置好。同时,可以调节一下麦克风的音量。方法是在“音量控制”的菜单中,选择“选项”中的“属性”命令,将“调莃节音量”从“播放”改成“录音”,按“确定”后,可将“音量控制”窗口改成“录音控制”窗口