pyAudio介绍

pyAudio介绍欢迎使用 Markdown 编辑器写博客本 Markdown 编辑器使用 StackEdit 修改而来 用它写博客 将会带来全新的体验哦 Markdown 和扩展 Markdown 简洁的语法代码块高亮图片链接和图片上传 LaTex 数学公式 UML 序列图和流程图离线写博客导入导出 Markdown 文件丰富的快捷键快捷键加粗 Ctrl B 斜体 Ctrl I 引用 Ctrl

image

pyAudio介绍

概要

具体功能

  • 特征提取(feature extraction):关于时域信号和频域信号都有所涉及
  • 分类(classification):监督学习,需要用已有的训练集来进行训练。交叉验证也实现了,进行参数优化使用。分类器可以保存在文件中以后使用。
  • 回归(regression):将语音信号映射到一个回归值。
  • 分割(segmenttation):有四个功能被实现了
    • [x] 固定大小的分割
    • [x] 静音检测(silence removal)
    • [x] 语音聚类(speaker diarization)
    • [x] 语音缩略图(audio thumbnailing)


  • 可视化:给定语音,将内容可视化

image

特征提取

  • 短时间特征(short-term features)
    • 时域特征(特征1-3)是直接提取的
    • 频域特征(特征4-34,MFCC除外)是由傅里叶转换而来
    • MFCC特征提取过程已经讨论过


过程:语音信号分帧,一帧有34个特征。一般20~100ms

  • 中等长度特征(mid-term features)和特别长的特征(long-term features)
    • 中等长度的调用短时间的特征,并进行统计运算
    • 1-10分钟左右长度
    • long-term调用Mid-term然后做统计运算
  • 速度有关的特征

语音分割

有监督的

  • 固定长度的分割算法(fix-sized segmentation)
    • audioSegmentation.py的函数mtFileClassfication()是主要的
      • 切分一个语音段为一个连续的中等长度的段(mid-term)并且提取min-term features,使用mtFeatureExtraction()
      • 使用已经训练好的模型来进行分类
      • 只要两个段相连并且都是同一个类别,就将两个段进行合并
      • 将数据进行可视化


    • 注意事项,一个.segment的文件必须要有
    • plotSegmentationResults()用来画图可视化数据


  • 隐马尔科夫模型分割算法(HMM-based segmentation)
    • 用户需要提供已经标注过的数据,包括:段开始点,段结束点,段类别
    • 一个语音文件配一个标注的配置文件,两者构成训练集
    • TrainHMM_fromFile()和TrainHMM_fromDir()是两个训练的函数
    • hmmSegmentation()函数用来使用HMM算法
    • plotSegmentationResult()可视化并且计算正确率

    image

无监督的语音分割

  • 静音检测
    • 短时间特征提取
    • 训练SVM,在高能帧和低能帧中,特别的,10%的高能帧和10%的低能帧用在训练SVM模型
    • 将SVM分类器用在全部的语音中,得到一串概率值,对应此帧是个时间帧(audio event)的概率
    • 一个动态的阈值被用来探测段是不是活跃的

    image

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/211597.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月18日 下午10:03
下一篇 2026年3月18日 下午10:03


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号