first commit
This commit is contained in:
178
Assignment/Assignment2/source/柯劲帆_21281280_作业2.md
Normal file
178
Assignment/Assignment2/source/柯劲帆_21281280_作业2.md
Normal file
@@ -0,0 +1,178 @@
|
||||
<h1><center>课程作业</center></h1>
|
||||
|
||||
<div style="text-align: center;">
|
||||
<div><span style="display: inline-block; width: 65px; text-align: center;">课程名称</span><span style="display: inline-block; width: 25px;">:</span><span style="display: inline-block; width: 210px; font-weight: bold; text-align: left;">计算机语音技术</span></div>
|
||||
<div><span style="display: inline-block; width: 65px; text-align: center;">作业次数</span><span style="display: inline-block; width: 25px;">:</span><span style="display: inline-block; width: 210px; font-weight: bold; text-align: left;">第2次</span></div>
|
||||
<div><span style="display: inline-block; width: 65px; text-align: center;">学号</span><span style="display: inline-block; width: 25px;">:</span><span style="display: inline-block; width: 210px; font-weight: bold; text-align: left;">21281280</span></div>
|
||||
<div><span style="display: inline-block; width: 65px; text-align: center;">姓名</span><span style="display: inline-block; width: 25px;">:</span><span style="display: inline-block; width: 210px; font-weight: bold; text-align: left;">柯劲帆</span></div>
|
||||
<div><span style="display: inline-block; width: 65px; text-align: center;">班级</span><span style="display: inline-block; width: 25px;">:</span><span style="display: inline-block; width: 210px; font-weight: bold; text-align: left;">物联网2101班</span></div>
|
||||
<div><span style="display: inline-block; width: 65px; text-align: center;">指导老师</span><span style="display: inline-block; width: 25px;">:</span><span style="display: inline-block; width: 210px; font-weight: bold; text-align: left;">朱维彬</span></div>
|
||||
<div><span style="display: inline-block; width: 65px; text-align: center;">修改日期</span><span style="display: inline-block; width: 25px;">:</span><span style="display: inline-block; width: 210px; font-weight: bold; text-align: left;">2023年10月14日</span></div>
|
||||
</div>
|
||||
|
||||
|
||||
---
|
||||
|
||||
## 1. 问题1
|
||||
|
||||
**语音信号由声学信号转换成离散的数字序列要经过那些过程?模数转换的指标是什么,之前为何要加抗混叠滤波器?**
|
||||
|
||||
语音信号由声学信号转换成离散的数字序列要经过以下过程:
|
||||
|
||||
1. 拾音:麦克风将语音信号从声波转换成模拟信号;
|
||||
2. 放大:电路中放大器将模拟信号放大;
|
||||
3. 抗混叠滤波:基于奈奎斯特采样定理,滤波器将原始信号中高于采样频率两倍的频率成分去除,避免频率混叠;
|
||||
4. 模/数转换:将模拟信号离散化,转换成离散的数字序列,其中分两步:
|
||||
1. 取样:等时间间隔取样,将信号在在时间上离散化;
|
||||
2. 量化:在数值上离散化,将信号幅度转换成二进制序列表示的整数。
|
||||
|
||||
|
||||
|
||||
模数转换的指标有两个:
|
||||
|
||||
- 采样频率:$F_{\text{sample}} > 2 \times F_n $,需要满足奈奎斯特采样定理;
|
||||
- 量化精度:
|
||||
- 量化字长$B$:能将最大幅度量化成$2^B$等分,其决定了能够量化的幅度范围或精度。
|
||||
- 噪声$e$:$e$的方差为$\sigma^2_e = \frac{1}{3}\left(\frac{\frac{2X_{\text{max}}}{2^B}}{2}\right)^2 = \frac{1}{3}\left(\frac{X_{\text{max}}}{2^B}\right)^2$,量化噪声工程估计为$\operatorname{SNR}\left(\text{dB}\right) = 6.02B-7.2$。
|
||||
|
||||
|
||||
|
||||
加抗混叠滤波器的原因:
|
||||
|
||||
根据奈奎斯特采样定理,如果采样频率$F_{\text{sample}}$小于两倍的最高频率成分$F_n$,那么在采样过程中,高于奈奎斯特频率的高频成分会混叠到基带频率,导致采样后的信号出现错误,如下图所示:
|
||||
|
||||
<img src="p1.png" alt="p1" style="zoom:33%;" />
|
||||
|
||||
因此需要加抗混叠滤波器,滤除信号中高于奈奎斯特采样频率的频率成分,确保在采样时不会出现混叠现象,如下图所示:
|
||||
|
||||
<img src="p2.png" alt="p2" style="zoom:33%;" />
|
||||
|
||||
|
||||
|
||||
## 2. 问题2
|
||||
|
||||
**短时能量和短时过零率的定义,给出公式并加以说明。**
|
||||
|
||||
短时平均能量指在语音信号的不同时间段内,信号的能量或振幅的平均值。定义如下:
|
||||
|
||||
窗函数:
|
||||
$$
|
||||
w\left(n\right)=\left\{\begin{array}{ll}
|
||||
1, & 0 \leq n \leq N-1 \\
|
||||
0, & \text { 其它 }
|
||||
\end{array}\right. \\
|
||||
$$
|
||||
短时平均能量:
|
||||
$$
|
||||
E_{n}=\sum_{m=-\infty}^{\infty}[x\left(m\right) w\left(n-m\right)]^{2}=\sum_{m=n-N+1}^{n}[x\left(m\right) w\left(n-m\right)]^{2}
|
||||
$$
|
||||
其中,$x^{2}\left( n \right) $表示语音信号在第$n$个时间段的平方振幅,$h\left(n-m\right)$表示窗函数的平方在不同时间偏移$m$下的取值。
|
||||
|
||||
令$h\left(n\right)=w^{2}\left(n\right)$,得到
|
||||
$$
|
||||
E_{n}=\sum_{m=-\infty}^{\infty} x^{2}\left(m\right) h\left(n-m\right)=x^{2}\left(n\right) \ast h\left(n\right)
|
||||
$$
|
||||
即$E_{n}$是语音信号在第$n$个时间段的平方振幅与窗函数平方的卷积。
|
||||
|
||||
其中窗函数可以有多种,常用的有:
|
||||
|
||||
1. 矩形窗
|
||||
$$
|
||||
h\left(n\right)=\left\{\begin{array}{ll}
|
||||
1, & 0 \leq n \leq N-1 \\
|
||||
0, & \text { 其它 }
|
||||
\end{array}\right. \\
|
||||
$$
|
||||
|
||||
2. 海明窗
|
||||
$$
|
||||
h\left(n\right)=\left\{\begin{array}{ll}
|
||||
0.54 - 0.4\cos\left[2\pi n / \left(N - 1\right)\right], & 0 \leq n \leq N-1 \\
|
||||
0, & \text { 其它 }
|
||||
\end{array}\right. \\
|
||||
$$
|
||||
|
||||
3. 汉宁窗
|
||||
$$
|
||||
h\left(n\right)=\left\{\begin{array}{ll}
|
||||
0.5\left[1 - \cos\left(\frac{2\pi n}{N - 1}\right)\right], & 0 \leq n \leq N-1 \\
|
||||
0, & \text { 其它 }
|
||||
\end{array}\right. \\
|
||||
$$
|
||||
|
||||
|
||||
|
||||
短时过零率指在语音信号的短时段内,信号穿过水平线(即振幅为0)的次数。定义如下:
|
||||
|
||||
窗函数:
|
||||
$$
|
||||
w\left(n\right)=\left\{\begin{array}{ll}
|
||||
\frac{1}{2 N}, & 0 \leq n \leq N-1 \\
|
||||
0, & \text { 其它 }
|
||||
\end{array}\right. \\
|
||||
$$
|
||||
短时过零率:
|
||||
$$
|
||||
Z_{n}=\sum_{m=-\infty}^{\infty}\left|\operatorname{sgn}\left[x\left(m\right)\right]-\operatorname{sgn}\left[x\left(m-1\right)\right]\right| w\left(n-m\right) \\
|
||||
\quad=\left|\operatorname{sgn}\left[x\left(n\right)\right]-\operatorname{sgn}\left[x\left(n-1\right)\right]\right| \ast w\left(n\right) \\
|
||||
$$
|
||||
其中$\operatorname{sgn}$是符号函数:
|
||||
$$
|
||||
\operatorname{sgn}\left(x\left(n\right)\right)=\left\{\begin{aligned}
|
||||
1, & x\left(n\right) \geq 0 \\
|
||||
-1, & x\left(n\right)<0
|
||||
\end{aligned}\right.
|
||||
$$
|
||||
即先将信号幅度归一化为$1$(在水平线上方)和$-1$(在水平线下方),然后与窗函数进行卷积。
|
||||
|
||||
在噪声背景下,$\operatorname{sgn}$被修正为:
|
||||
$$
|
||||
\operatorname{sgn}\left(x\left(n\right)\right)=\left\{\begin{aligned}
|
||||
1, & x\left(n\right) \geq \Delta \\
|
||||
-1, & x\left(n\right)< -\Delta
|
||||
\end{aligned}\right.
|
||||
$$
|
||||
|
||||
以消除噪声的影响。
|
||||
|
||||
窗函数的作用是限制信号在时间和频率上的特性,确保在分析时局部信号的平稳性。窗函数可以防止频谱泄漏,提高分析的准确性。
|
||||
|
||||
|
||||
|
||||
|
||||
## 3. 问题3
|
||||
|
||||
**语音信号的短时频谱的定义,如何提高短时频谱的频率分辨率?**
|
||||
|
||||
语音信号的短时频谱的定义:
|
||||
|
||||
短时频谱是指在语音信号的不同时间段内,信号的频率成分分布情况。
|
||||
|
||||
短时频谱可以通过对语音信号进行短时傅里叶变换计算得到,也就是将信号分割成短时段,然后对每个短时段进行傅里叶变换,得到该时段的频谱信息。
|
||||
|
||||
|
||||
|
||||
提高短时频谱的频率分辨率的方法:
|
||||
|
||||
增大窗函数时域窗长。
|
||||
|
||||
由测不准原理,窗函数时域窗长与其频域主瓣宽度的乘积不小于$\frac{1}{2}$,因此欲减小频域主瓣宽度(即频率分辨率),则需要提高窗函数时域窗长。
|
||||
|
||||
当然,也可以选择合适的窗函数与信号谱进行卷积,比如在同等分辨率条件下,矩形窗的窗长为海明窗窗长的$\frac{1}{2}$。
|
||||
|
||||
搜索资料发现,还可以使用高阶傅里叶变换方法提高短时频谱的频率分辨率,但代价是计算复杂度会增加。
|
||||
|
||||
|
||||
|
||||
## 4. 问题4
|
||||
|
||||
**请分析短时分析中窗函数的作用。**
|
||||
|
||||
- 选择分析的语音段。
|
||||
- 将整个信号在短时段内截断,确保分析的语音段具有较好的时域特性。
|
||||
- 时域表现为端点的截断效应,频域体现为旁瓣衰减程度。
|
||||
- 时域:将信号在窗口之外置零,避免了窗口边界处的信号突变;
|
||||
- 频域:窗函数的选择影响旁瓣的衰减程度,旁瓣衰减的情况决定频谱的分辨率。
|
||||
- 改变窗的长度,折衷设置时间/频率分辨率。
|
||||
- 窗函数的长度决定了分析的时间窗口长短。较短的窗口提供了较高的时域分辨率,但频率分辨率较低。较长的窗口则提供了较好的频率分辨率,但时域分辨率较低。因此,窗函数的长度是时域分辨率和频率分辨率之间的折衷。可以根据时域和频域的分辨率需求,选择合适的窗口长度。
|
||||
|
||||
Reference in New Issue
Block a user