智谱 AI 发布新一代语音识别产品系列 GLM-ASR,并同步推出桌面端「智谱 AI 输入法」,将语音识别与大模型能力深度融合,主打“说话即可下指令”的人机交互方式。GLM-ASR 系列包含云端模型 GLM-ASR-2512 和端侧模型 GLM-ASR-Nano-2512,覆盖从服务器到笔记本、手机等多种运行环境。
据介绍,GLM-ASR-2512 部署于云端,字符错误率为 0.0717,支持中文、英文及部分方言,并针对嘈杂环境进行了优化,适合对准确率要求较高的线上服务场景。GLM-ASR-Nano-2512 约 15 亿参数,可在笔记本电脑和手机等端侧设备本地运行,强调低延迟与实时交互体验,模型权重及推理代码开源,而云端版则通过 API 提供服务。
「智谱 AI 输入法」面向桌面端用户,将 GLM-ASR 与大模型结合,支持通过说话完成文本输入、应用控制和指令下达。产品引入“耳语模式”,在较低音量或气声情况下也能识别语音,便于在安静环境中使用。官方提醒,用户在使用语音输入和持续监听功能时,应关注麦克风权限和数据上传范围,结合自身隐私与安全要求进行配置。
常见问题
Q:GLM-ASR 智谱 AI GLM 教程 是什么?
A:GLM-ASR 是智谱 AI 推出的语音识别模型系列,面向语音转文字和语音控制等场景,包含云端和端侧两个版本。
Q:GLM-ASR-2512 和 GLM-ASR-Nano-2512 有何区别?
A:前者部署在云端,准确率更高,通过 API 调用;后者参数规模更小,可在笔记本、手机等本地运行,主打低延迟和离线可用。
Q:GLM-ASR-Nano 是否开源?
A:GLM-ASR-Nano-2512 提供开源权重和推理代码,方便开发者在本地或自有环境中集成和二次开发。
Q:「智谱 AI 输入法」能做什么?
A:该输入法将语音识别与大模型结合,支持语音输入文本、语音下达系统指令,并提供耳语模式以适应低音量、隐私场景。
Q:使用这些语音产品需要注意哪些风险?
A:语音识别涉及麦克风采集和可能的数据上传,用户应检查应用权限、了解数据使用规则,并在涉及敏感信息时谨慎选择是否启用云端服务或长时间监听。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/268540.html原文链接:https://javaforall.net
