智能音箱：修订间差异

2024年7月3日 (三) 09:58的最新版本

智能音箱是一种内置语音助手的智能音响，可以接收语音指令，进行播放音乐、对话问答，控制家庭设备等。

简介

时间轴

常见产品

产品	虚拟助手	公司
天猫精灵	AliGenie	阿里巴巴
小度	DuerOS	百度
小爱同学	小爱同学	小米

Echo	Alexa	亚马逊
HomePod	Siri	苹果

硬件

技术

语音前端处理

语音前端处理（Audio Processing）

唤醒

唤醒，也称Keyword Spotting (KWS)，即关键词检测。当录音识别到关键词（如设置'天猫精灵'，'hey Siri'），就开始录制后面的语音，进行分析处理。

名称	描述
Porcupine	是一款离线轻量级的唤醒词引擎，支持多语言，多平台。免费账号每个月只支持3个用户和3个唤醒词训练。
SnowBoy
讯飞语音唤醒	免费版10个用户90天试用期。官网：https://www.xfyun.cn/service/awaken?type=awaken

语音转文本

语音识别（Automatic Speech Recognition, ASR），也称语音转文本（Speech To Text，STT）。

名称	开发者	描述
whisper	OpenAI	是OpenAI在2022年9月开源的语音识别（ASR）软件。可以用于本地离线识别，或安装在服务器上提供API。支持语言：中文、英语、法语、德语、俄语、日语等几十种语言。价格：免费。官网：https://openai.com/index/whisper/ 源代码：https://github.com/openai/whisper
OpenAI 语音识别API	OpenAI	基于开源 large-v2 Whisper 模型。支持语言：中文、英语、法语、德语、俄语、日语等几十种语言。价格：收费官网：https://platform.openai.com/docs/guides/speech-to-text/speech-to-text
PaddleSpeech	百度	百度开源的语音方向的开源模型库，基于百度飞桨 PaddlePaddle。支持声音分类、语音识别（ASR）、语音翻译（英译中）、语音合成（TTS）和声纹验证。支持语言：源代码：https://github.com/PaddlePaddle/PaddleSpeech

自然语言理解

自然语言理解 (Natural Language Understanding, NLU)

文本转语音

语音合成，

项目

名称	描述
Mycroft	https://github.com/MycroftAI/mycroft-core
wukong-robot	是一个开源的中文语音对话机器人/智能音箱项目。 https://wukong.hahack.com/

资源

网站

文章

Github：voice-engine/make-a-smart-speaker DIY智能音箱

@@ 第1行： / 第1行： @@
+智能音箱是一种内置语音助手的智能音响，可以接收语音指令，进行播放音乐、对话问答，控制家庭设备等。
 ==简介==
@@ 第46行： / 第47行： @@
 |}
-==技术==
+== 硬件 ==
+== 技术 ==
+=== 语音前端处理 ===
+语音前端处理（Audio Processing）
+=== 唤醒 ===
+唤醒，也称Keyword Spotting (KWS)， 即关键词检测。当录音识别到关键词（如设置'天猫精灵'，'hey Siri'），就开始录制后面的语音，进行分析处理。
+{| class="wikitable"
+! 名称
+! 描述
+|-
+| [[Picovoice#Porcupine | Porcupine]]
+| 是一款离线轻量级的唤醒词引擎，支持多语言，多平台。免费账号每个月只支持3个用户和3个唤醒词训练。
+|-
+| SnowBoy
+|
+|-
+| 讯飞语音唤醒
+| 免费版10个用户90天试用期。<br />官网：https://www.xfyun.cn/service/awaken?type=awaken
+|-
+|
+|
+|}
+===语音转文本===
+语音识别（Automatic Speech Recognition, ASR），也称语音转文本（Speech To Text，STT）。
+{| class="wikitable"
+! 名称
+! 开发者
+! 描述
+|-
+| whisper
+| OpenAI
+| 是OpenAI在2022年9月开源的语音识别 （ASR）软件。可以用于本地离线识别，或安装在服务器上提供API。<br />支持语言：中文、英语、法语、德语、俄语、日语等几十种语言。 <br />价格：免费。 <br />官网：https://openai.com/index/whisper/  <br />源代码：https://github.com/openai/whisper
+|-
+|OpenAI<br />语音识别API
+| OpenAI
+| 基于开源 large-v2 Whisper 模型。<br />支持语言：中文、英语、法语、德语、俄语、日语等几十种语言。 <br />价格：收费 <br />官网：https://platform.openai.com/docs/guides/speech-to-text/speech-to-text
+|-
+| PaddleSpeech
+| 百度
+| 百度开源的语音方向的开源模型库，基于百度飞桨 PaddlePaddle。支持声音分类、语音识别（ASR）、语音翻译（英译中）、语音合成（TTS）和声纹验证。<br />支持语言： <br />源代码：https://github.com/PaddlePaddle/PaddleSpeech
+|-
+|
+|
+|
+|-
+|
+|
+|
+|-
+|
+|
+|
+|}
+===自然语言理解===
+自然语言理解 (Natural Language Understanding, NLU)
+===文本转语音===
+语音合成，
+==项目==
+{| class="wikitable"
+! 名称
+! 描述
+|-
+| Mycroft
+| https://github.com/MycroftAI/mycroft-core
+|-
+| wukong-robot
+| 是一个开源的中文语音对话机器人/智能音箱项目。 https://wukong.hahack.com/
+|-
+|
+|
+|}
 ==资源==
@@ 第53行： / 第130行： @@
 ===文章===
+*[https://github.com/voice-engine/make-a-smart-speaker/blob/master/zh.md Github：voice-engine/make-a-smart-speaker DIY智能音箱]