pyAudio介绍

全栈程序员-站长 • 2026年3月18日下午10:03 • 未分类 • 阅读 2

pyAudio介绍欢迎使用 Markdown 编辑器写博客本 Markdown 编辑器使用 StackEdit 修改而来用它写博客将会带来全新的体验哦 Markdown 和扩展 Markdown 简洁的语法代码块高亮图片链接和图片上传 LaTex 数学公式 UML 序列图和流程图离线写博客导入导出 Markdown 文件丰富的快捷键快捷键加粗 Ctrl B 斜体 Ctrl I 引用 Ctrl

pyAudio介绍

概要

具体功能

特征提取(feature extraction)：关于时域信号和频域信号都有所涉及
分类(classification)：监督学习，需要用已有的训练集来进行训练。交叉验证也实现了，进行参数优化使用。分类器可以保存在文件中以后使用。
回归(regression)：将语音信号映射到一个回归值。
分割(segmenttation)：有四个功能被实现了
- [x] 固定大小的分割
- [x] 静音检测（silence removal）
- [x] 语音聚类（speaker diarization）
- [x] 语音缩略图(audio thumbnailing)
可视化：给定语音，将内容可视化

特征提取

短时间特征（short-term features）
- 时域特征（特征1-3）是直接提取的
- 频域特征（特征4-34，MFCC除外）是由傅里叶转换而来
- MFCC特征提取过程已经讨论过

过程：语音信号分帧，一帧有34个特征。一般20~100ms

中等长度特征（mid-term features）和特别长的特征（long-term features)
- 中等长度的调用短时间的特征，并进行统计运算
- 1-10分钟左右长度
- long-term调用Mid-term然后做统计运算
速度有关的特征

语音分割

有监督的

固定长度的分割算法（fix-sized segmentation）
- audioSegmentation.py的函数mtFileClassfication()是主要的
  - 切分一个语音段为一个连续的中等长度的段（mid-term)并且提取min-term features，使用mtFeatureExtraction()
  - 使用已经训练好的模型来进行分类
  - 只要两个段相连并且都是同一个类别，就将两个段进行合并
  - 将数据进行可视化
- 注意事项，一个.segment的文件必须要有
- plotSegmentationResults()用来画图可视化数据
隐马尔科夫模型分割算法（HMM-based segmentation）
- 用户需要提供已经标注过的数据，包括：段开始点，段结束点，段类别
- 一个语音文件配一个标注的配置文件，两者构成训练集
- TrainHMM_fromFile()和TrainHMM_fromDir()是两个训练的函数
- hmmSegmentation()函数用来使用HMM算法
- plotSegmentationResult()可视化并且计算正确率

无监督的语音分割

静音检测
- 短时间特征提取
- 训练SVM，在高能帧和低能帧中，特别的，10%的高能帧和10%的低能帧用在训练SVM模型
- 将SVM分类器用在全部的语音中，得到一串概率值，对应此帧是个时间帧（audio event）的概率
- 一个动态的阈值被用来探测段是不是活跃的

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/211597.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

大数据Kafka（四）：kafka的shell命令使用

上一篇 2026年3月18日下午10:03

单片机中0x00和0x01有什么区别

下一篇 2026年3月18日下午10:03

python win32api教程_python通过api获取数据

python win32api教程_python通过api获取数据0x01Win32API简介Win32API即为Microsoft32位平台(包括：Windows9x,WindowsNT3.1/4.0/5.0,WindowsCE等)的应用程序编程接口(ApplicationProgrammingInterface)，是构筑所有32位Windows平台的基石，所有在Win32平台上运行的应用程序都可以调用这些函数。使用Win32API，应用…

全栈程序员-站长
2022年10月11日
5
修改DeDe标签Pagelist分页样式，自定义分页样式

修改DeDe标签Pagelist分页样式，自定义分页样式

全栈程序员-站长
2021年9月21日
47
c语言offsetof_c语言宏定义比较大小

c语言offsetof_c语言宏定义比较大小根据一个已经分配空间的结构体指针a中的某个成员b的地址，来获取该结构体指针地址

全栈程序员-站长
2022年8月22日
9
设备管理 USB ID「建议收藏」

设备管理 USB ID「建议收藏」发现个USBID站点，对于做设备管理识别的小伙伴特别实用http://www.linux-usb.org/usb.ids附录：## ListofUSBID’s## MaintainedbyStephenJ.Gowdy<linux.usb.ids@gmail.com># Ifyouhaveanynewentries,…

全栈程序员-站长
2022年7月13日
63
国内一些比较大型的IT外包公司[通俗易懂]

国内一些比较大型的IT外包公司[通俗易懂]下面的这些公司是我根据网上的资料整理出来的。找工作的同学都要看看，下面这些是国内一些比较大型的外包公司，想进外包公司的和不想进的都要了解一下，别进错了。序号公司名称英文备注1.博朗软件Bleum上海2.东软集团Neusoft沈阳3.大连华信-大连4.新致软件…

全栈程序员-站长
2022年4月26日
229
linux find命令详解_linux中find命令用法

linux find命令详解_linux中find命令用法find命令格式：findpath-option[-print][-exec-okcommand]{}\;find命令的参数：path：要查找的目录路径。~表示$HO

全栈程序员-站长
2022年7月29日
10

发表回复

关注全栈程序员社区公众号