智能音箱

Eric讨论 | 贡献2024年7月3日 (三) 09:58的版本 →‎语音转文本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

智能音箱是一种内置语音助手的智能音响,可以接收语音指令,进行播放音乐、对话问答,控制家庭设备等。

简介

时间轴

常见产品

产品 虚拟助手 公司 描述
天猫精灵 AliGenie 阿里巴巴
小度 DuerOS 百度
小爱同学 小爱同学 小米
Echo Alexa 亚马逊
HomePod Siri 苹果

硬件

技术

语音前端处理

语音前端处理(Audio Processing)


唤醒

唤醒,也称Keyword Spotting (KWS), 即关键词检测。当录音识别到关键词(如设置'天猫精灵','hey Siri'),就开始录制后面的语音,进行分析处理。

名称 描述
Porcupine 是一款离线轻量级的唤醒词引擎,支持多语言,多平台。免费账号每个月只支持3个用户和3个唤醒词训练。
SnowBoy
讯飞语音唤醒 免费版10个用户90天试用期。
官网:https://www.xfyun.cn/service/awaken?type=awaken

语音转文本

语音识别(Automatic Speech Recognition, ASR),也称语音转文本(Speech To Text,STT)。

名称 开发者 描述
whisper OpenAI 是OpenAI在2022年9月开源的语音识别 (ASR)软件。可以用于本地离线识别,或安装在服务器上提供API。
支持语言:中文、英语、法语、德语、俄语、日语等几十种语言。
价格:免费。
官网:https://openai.com/index/whisper/
源代码:https://github.com/openai/whisper
OpenAI
语音识别API
OpenAI 基于开源 large-v2 Whisper 模型。
支持语言:中文、英语、法语、德语、俄语、日语等几十种语言。
价格:收费
官网:https://platform.openai.com/docs/guides/speech-to-text/speech-to-text
PaddleSpeech 百度 百度开源的语音方向的开源模型库,基于百度飞桨 PaddlePaddle。支持声音分类、语音识别(ASR)、语音翻译(英译中)、语音合成(TTS)和声纹验证。
支持语言:
源代码:https://github.com/PaddlePaddle/PaddleSpeech

自然语言理解

自然语言理解 (Natural Language Understanding, NLU)

文本转语音

语音合成,

项目

名称 描述
Mycroft https://github.com/MycroftAI/mycroft-core
wukong-robot 是一个开源的中文语音对话机器人/智能音箱项目。 https://wukong.hahack.com/

资源

网站

文章