数字变声器设计方案

买菜
1 ℃
2020-02-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于FFT算法的数字变声器201242216河北北方学院宣化教学部河北宣化075100【摘要】本数字变声器是实现男声变女声和女声变男声以及变成童声的系统。设计本数字变声器的目的是锻炼自己的学习实践能力。通过matlab编写程序修改语音参数来实现男声女声之间的变换。【关键词】变音算法数字滤波器语音信号数字滤波器频谱分析MATLAB1引言变声器在现实生活中应用广泛，变声器是通过改变输入音频的音色、音调，并将变声后的音频输出的工具。根据变声器材质不同，变声器分为变声器硬件和变声器软件。变声器硬件，即通过硬件实现变声的工具；变声器软件，即通过软件实现变声的工具，软件类变声器，运行平台皆为电脑系统。无论是硬件变声器，还是软件变声器，其原理都是，通过改变输入声音频率，进而改变声音的音色、音调，使输出声音在感官上与原声音不同。我们每个人的声音不同，源于我们的每个人的音色和音调不同，我们所说的男中音、男高音，就是音调的不同，而即便音调一致，我们依然能区分出两个不同人的声音，或不同乐器的声音，这就是音色的不同。变声器，正是借助对声音音色和音调的双重复合改变，实现输出声音的改变。我们这里的变声器就是matlab来实现变声。2数字变声器的原理和算法发音方法，发音时，喉头、口腔、鼻腔节制气流的方式和状态，包括发音时构成阻碍和克服阻碍的方式，气流强弱的情况及声带是否振动等几个方面。人类语音可分为有380声语音和无声语音，前者是由声带振动激励的脉冲信号经声腔调制变成不同的音，它是人类语言中元音的基础，声带振动的频率称为基频。无声语音则是声带保持开启状态，禁止振动引发的。一般来说，由声门振动决定的基频跟说话人的性别特征有关，如下表，而无声语音则没有体现这个特征。说话人的个性化音色和语音的另外一个声学参数——共振峰频率的分布有关。儿童由于声道短，其共振峰频率高于成年人，成年女性的声道一般短于成年男性，所以女性的共振峰频率一般高于男性。本实验是基于男生录制的声音进行相关参数提取，修改接近于女声、童声、老人声，并实现了音调的高低与速度的快慢1.变声原理在进行性别变声时，主要考虑基音周期、基频和共振峰频率的变化。基音周期改变时，基频、共振峰同时变化，若伸展既有男变女、女变童，反之亦可。本实验是基于男生录制的声音进行相关参数提取，修改接近于女声，实现男声到女声的变换。●音段特征：描述的是语音的音色特征。特征参数主要包括基音频率、共振峰位置、共振峰带宽、基音频率、能量等。●超音段特征：描述的是语音的韵律特征。特征参数主要包括因素的时长、基音频率的变化（音调）、能量等●语言特征：包括习惯用语、方言、口音等。基音是指发浊音时声带振动所引起的周期性，而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一，它描述了语音激励源的一个重要特征。不同的人以及同一个人在不同的年龄时期有不同的基音周期。人唱歌时，其基音频率范围大约是：童声高音频率范围为260-880Hz，低音频率范围为196-700Hz，女声高音频率范围为220-1.1KHz,低音频率范围为200-700Hz，男声高音频率范围为160-523Hz低音频率范围为80-358Hz。此外，基音的变化模式称为声调，它携带着非常重要的具有辨意作用的信息。先就如何实时地通过基音频率的变化来实现语声变声，进行讨论，Matlab实现算法。男声基频分布（hz）：50~180共振峰频率分布：偏低人群女声基频分布（hz）：160~380共振峰频率分布：中提取参数（1）语音时变傅里叶变换为：njwnjwenxeX)()(在低通滤波时，采用巴特沃斯滤波器。（2）构建巴特沃斯低通滤波器根据人的说话特征设定相应指标参数，对本段语音设计算出巴特沃斯模拟滤波器的阶数，截止频率，归一化低通原型系统函数。本段语音设计算出巴特沃斯模拟滤波器的阶数N为5，3dB截止频率,,算出为0.175，归一化低通原型系统函数为：其中将带人中，得到低通滤波器，各种理想数字滤波器的幅度频率响应流程图准备查看变声器和声音的相关资料收集声音进行波形分析，傅里叶变换构建巴特沃斯低通滤波器用matlab进行程序设计，构建GUI界面打开声音文件男声女声变女声变男声3数字变声器的软件实现与仿真结果代码部分选择音频文件[filename,pathname]=uigetfile({'*.wav','ALLFILES'},'selectvoicefile');ifisequal([filenamepathname],[0,0])return;endstr=[pathnamefilename];[temp,Fs]=audioread(str);temp1=resample(temp,80,441);handles.y1=temp;handles.y=temp1;handles.Fs=Fs;guidata(hObject,handles);原音播放c=handles.Fs;sound(handles.y1,c);plot(handles.axes1,handles.y1)title(handles.axes1,'时域图');ysize=size(handles.y1);y1=fft(handles.y,length(handles.y1));ysize=size(y1);plot(handles.axes2,abs(y1(1:ysize/2)));xlabel(handles.axes2,'频率');ylabel(handles.axes2,'幅度');title(handles.axes2,'频率特性');男声变女声FL=80;WL=240;P=10;x1=handles.y;fs=handles.Fs;x1=resample(x1(:,1),8000,fs);fs=8000;x1=x1+0.000001*randn(length(x1),1);x1=x1/max(x1);L=length(x1);FN=floor(L/FL)-2;exc=zeros(L,1);zi_pre=zeros(P,1);x1_rec=zeros(L,1);zi_rec=zeros(P,1);exc_syn=zeros(L,1);x1_syn=zeros(L,1);last_syn=0;zi_syn=zeros(P,1);exc_syn_t=zeros(L,1);x1_syn_t=zeros(L,1);last_syn_t=0;zi_syn_t=zeros(P,1);hw=hamming(WL);forn=3:FNx1_w=x1(n*FL-WL+1:n*FL).*hw;[AE]=lpc(x1_w,P);x1_f=x1((n-1)*FL+1:n*FL);[exc1,zi_pre]=filter(A,1,x1_f,zi_pre);exc((n-1)*FL+1:n*FL)=exc1;[x1_rec1,zi_rec]=filter(1,A,exc1,zi_rec);x1_rec((n-1)*FL+1:n*FL)=x1_rec1;x1_Pitch=exc(n*FL-222:n*FL);PT=findpitch(x1_Pitch);G=sqrt(E*PT);PT1=floor(PT/2);poles=roots(A);deltaOMG=190*2*pi/8000;forp=1:10ifimag(poles(p))0poles(p)=poles(p)*exp(j*deltaOMG);elseifimag(poles(p))0poles(p)=poles(p)*exp(-j*deltaOMG);endendA1=poly(poles);tempn_syn_t=[1:n*FL-last_syn_t]';exc_syn1_t=zeros(length(tempn_syn_t),1);exc_syn1_t(mod(tempn_syn_t,PT1)==0)=G;exc_syn1_t=exc_syn1_t((n-1)*FL-last_syn_t+1:n*FL-last_syn_t);[x1_syn1_t,zi_syn_t]=filter(1,A1,exc_syn1_t,zi_syn_t);exc_syn_t((n-1)*FL+1:n*FL)=exc_syn1_t;x1_syn_t((n-1)*FL+1:n*FL)=x1_syn1_t;last_syn_t=last_syn_t+PT1*floor((n*FL-last_syn_t)/PT1);endsound(x1_syn_t,fs)plot(handles.axes1,x1_syn_t);title(handles.axes1,'时域图');gridon;ysize=size(x1_syn_t);y=fft(x1_syn_t,length(x1_syn_t));ysize=size(y);plot(handles.axes2,abs(y(1:ysize)))xlabel(handles.axes2,'频率');ylabel(handles.axes2,'幅度');title(handles.axes2,'频率特征');女声变男声FL=80;%帧长WL=240;%窗长P=10;%预测系数个数c=handles.Fs;Fs=c;s=handles.y;s=resample(s(:,1),8000,Fs);Fs=8000;s=s+0.000001*randn(length(s),1);s=s/max(s);%归一化¯L=length(s);%读入语音长度FN=floor(L/FL)-2;%计算帧数%预测和重建滤波器exc=zeros(L,1);%激励信号zi_pre=zeros(P,1);%预测滤波器状态¬s_rec=zeros(L,1);%重建语音zi_rec=zeros(P,1);%变调不变速滤波器exc_syn_t=zeros(L,1);%合成的激励信号s_syn_t=zeros(L,1);%合成语音last_syn_t=0;%储存上一个或多个段的最后一个脉冲的下标zi_syn_t=zeros(P,1);%合成滤波器状态hw=hamming(WL);%依次处理语音forn=3:FN%计算预测系数s_w=s(n*FL-WL+1:n*FL).*hw;%汉明窗加权后的语音[A,E]=lpc(s_w,P);s_f=s((n-1)*FL+1:n*FL);%本帧语音%计算激励[exc1,zi_pre]=filter(A,1,s_f,zi_pre);exc((n-1)*FL+1:n*FL)=exc1;%计算得到的重建语音[s_rec1,zi_rec]=filter(1,A,exc1,zi_rec);s_rec((n-1)*FL+1:n*FL)=s_rec1;·s_Pitch=exc(n*FL-222:n*FL);PT=findpitch(s_Pitch);%计算基音周期ptG=sqrt(E*PT);%计算合成激励的能量PT1=floor(PT/0.50);poles=roots(A);deltaOMG=80*2*pi/8000;forp=1:10ifimag(poles(p))0,poles(p)=poles(p)*exp(1i*deltaOMG);elseifimag(poles(p))0,poles(p)=poles(p)*exp(-1i*deltaOMG);endendA1=poly(poles);tempn_syn_t=(1:n*FL-last_syn_t)';exc_syn1_t=zeros(length(tempn_syn_t),1);exc_syn1_t(mod(tempn_syn_t,PT1)==0)=G;%算出脉冲exc_syn1_t=exc_syn1_t((n-1)*FL-last_syn_t+1:n*FL-last_syn_t);[s_syn1_t,zi_syn_t]=filter(1,A1,exc_syn1_t,zi_syn_t);