600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > TIMIT数据集-语音人工标签-波形频谱可视化展示

TIMIT数据集-语音人工标签-波形频谱可视化展示

时间:2019-10-28 10:10:31

相关推荐

TIMIT数据集-语音人工标签-波形频谱可视化展示

TIMIT语音标签详情

基本信息

样本文件:

/TIMIT/TEST/DR1/FAKS0/SA1.WAV

音素标签:

0 9640 h#

9640 11240 sh

11240 12783 iy

12783 14078 hv

14078 16157 ae

16157 16880 dcl

16880 17103 d

17103 17587 y

17587 18760 er

18760 19720 dcl

19720 19962 d

19962 21514 aa

21514 22680 r

22680 23800 kcl

23800 24104 k

24104 26280 s

26280 28591 uw

28591 29179 dx

29179 30337 ih

30337 31880 ng

31880 32500 gcl

32500 33170 g

33170 33829 r

33829 35150 iy

35150 37370 s

37370 38568 iy

38568 40546 w

40546 42357 aa

42357 45119 sh

45119 45624 epi

45624 46855 w

46855 48680 aa

48680 49240 dx

49240 51033 er

51033 52378 q

52378 54500 ao

54500 55461 l

55461 57395 y

57395 59179 iy

59179 60600 axr

60600 63440 h#

词标签:

9640 12783 she

12783 17103 had

17103 18760 your

18760 24104 dark

24104 29179 suit

29179 31880 in

31880 38568 greasy

38568 45119 wash

45624 51033 water

52378 55461 all

55461 60600 year

可视化信息

以上是Adobe公司的Audition软件打开该文件后显示的波形图频谱图,下面红色的条纹称为谱包络,反映的是语音的共振峰

我按照TIMIT中.WRD文件的词边界标记出来后呈现出的标签如图。

以上是我利用Matlab GUIDE编写的一个音频打标签的软件。

功能如下:

1、可以打开wav文件、TIMIT Sphere文件并留出打开PCM文件的开发接口,还可以输出文件信息。

2、播放标定区间的音频。

3、展示图:大图像为音频整体波形图,下方三个小图像为500采样点分辨率的精细图,分辨率可在代码中自行调整。

4、精准定位到采样点,定边界,然后打标签(类型1或2)。因此可以用于语音活动检测(Voice Activity Detection,VAD)标签以及语音音乐分离(Speech Music Discrimination,SMD)标签的人工标记。并以01格式保存到txt文件中。

完善后会将代码挂在Github上

可以看出TIMIT将该段音频分为三个词语段

She had your dark suit in greasy wash:9640~45119water:45624~51033all year:52378~60600

而9640~60600整个为音素段。

观察

1、第一个词语“she”的开始标在采样点9640,位置如图。可以看出语音人工标签并不是按照能量突增的位置开始的。此时音素sh的开始边界也为9640.

频谱边界为:

2、观察wash结束边界,采样点45119——water开始边界,采样点45624,此段为非词语段。用耳朵听也难以听出人声,所以TIMIT在音素标记中为【45119 45624 epi】,epenthetic silence(静音)。

频谱边界为:

3、观察词语“water”的结束边界,采样点51033——all的开始边界,采样点52378.

用耳朵听,能确定是人在发出声音,但是TIMIT不认为它是任何词语的音素,固不在词边界中。但在音素标签上,【51033 52378 q】,表明该段为爆破音p。

频谱边界为:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。