智能音箱:修订间差异
(创建页面,内容为“ ==简介== ===时间轴=== ==常见产品== {| class="wikitable" ! 产品 ! 虚拟助手 ! 公司 ! 描述 |- | 天猫精灵 | [https://www.aligenie.com/ AliGenie] | 阿里巴巴 | |- | 小度 | [https://dueros.baidu.com/open DuerOS] | 百度 | |- | 小爱同学 | [https://developers.xiaoai.mi.com/ 小爱同学] | 小米 | |- | | | | |- | Echo | [https://www.alexa.com/ Alexa] | 亚马逊 | |- | HomePod | Siri | 苹果 | |- | | | | |} ==技…”) |
(→语音转文本) |
||
(未显示同一用户的4个中间版本) | |||
第1行: | 第1行: | ||
智能音箱是一种内置语音助手的智能音响,可以接收语音指令,进行播放音乐、对话问答,控制家庭设备等。 | |||
==简介== | ==简介== | ||
第46行: | 第47行: | ||
|} | |} | ||
== | == 硬件 == | ||
== 技术 == | |||
=== 语音前端处理 === | |||
语音前端处理(Audio Processing) | |||
=== 唤醒 === | |||
唤醒,也称Keyword Spotting (KWS), 即关键词检测。当录音识别到关键词(如设置'天猫精灵','hey Siri'),就开始录制后面的语音,进行分析处理。 | |||
{| class="wikitable" | |||
! 名称 | |||
! 描述 | |||
|- | |||
| [[Picovoice#Porcupine | Porcupine]] | |||
| 是一款离线轻量级的唤醒词引擎,支持多语言,多平台。免费账号每个月只支持3个用户和3个唤醒词训练。 | |||
|- | |||
| SnowBoy | |||
| | |||
|- | |||
| 讯飞语音唤醒 | |||
| 免费版10个用户90天试用期。<br />官网:https://www.xfyun.cn/service/awaken?type=awaken | |||
|- | |||
| | |||
| | |||
|} | |||
===语音转文本=== | |||
语音识别(Automatic Speech Recognition, ASR),也称语音转文本(Speech To Text,STT)。 | |||
{| class="wikitable" | |||
! 名称 | |||
! 开发者 | |||
! 描述 | |||
|- | |||
| whisper | |||
| OpenAI | |||
| 是OpenAI在2022年9月开源的语音识别 (ASR)软件。可以用于本地离线识别,或安装在服务器上提供API。<br />支持语言:中文、英语、法语、德语、俄语、日语等几十种语言。 <br />价格:免费。 <br />官网:https://openai.com/index/whisper/ <br />源代码:https://github.com/openai/whisper | |||
|- | |||
|OpenAI<br />语音识别API | |||
| OpenAI | |||
| 基于开源 large-v2 Whisper 模型。<br />支持语言:中文、英语、法语、德语、俄语、日语等几十种语言。 <br />价格:收费 <br />官网:https://platform.openai.com/docs/guides/speech-to-text/speech-to-text | |||
|- | |||
| PaddleSpeech | |||
| 百度 | |||
| 百度开源的语音方向的开源模型库,基于百度飞桨 PaddlePaddle。支持声音分类、语音识别(ASR)、语音翻译(英译中)、语音合成(TTS)和声纹验证。<br />支持语言: <br />源代码:https://github.com/PaddlePaddle/PaddleSpeech | |||
|- | |||
| | |||
| | |||
| | |||
|- | |||
| | |||
| | |||
| | |||
|- | |||
| | |||
| | |||
| | |||
|} | |||
===自然语言理解=== | |||
自然语言理解 (Natural Language Understanding, NLU) | |||
===文本转语音=== | |||
语音合成, | |||
==项目== | |||
{| class="wikitable" | |||
! 名称 | |||
! 描述 | |||
|- | |||
| Mycroft | |||
| https://github.com/MycroftAI/mycroft-core | |||
|- | |||
| wukong-robot | |||
| 是一个开源的中文语音对话机器人/智能音箱项目。 https://wukong.hahack.com/ | |||
|- | |||
| | |||
| | |||
|} | |||
==资源== | ==资源== | ||
第53行: | 第130行: | ||
===文章=== | ===文章=== | ||
*[https://github.com/voice-engine/make-a-smart-speaker/blob/master/zh.md Github:voice-engine/make-a-smart-speaker DIY智能音箱] |
2024年7月3日 (三) 09:58的最新版本
智能音箱是一种内置语音助手的智能音响,可以接收语音指令,进行播放音乐、对话问答,控制家庭设备等。
简介
时间轴
常见产品
产品 | 虚拟助手 | 公司 | 描述 |
---|---|---|---|
天猫精灵 | AliGenie | 阿里巴巴 | |
小度 | DuerOS | 百度 | |
小爱同学 | 小爱同学 | 小米 | |
Echo | Alexa | 亚马逊 | |
HomePod | Siri | 苹果 | |
硬件
技术
语音前端处理
语音前端处理(Audio Processing)
唤醒
唤醒,也称Keyword Spotting (KWS), 即关键词检测。当录音识别到关键词(如设置'天猫精灵','hey Siri'),就开始录制后面的语音,进行分析处理。
名称 | 描述 |
---|---|
Porcupine | 是一款离线轻量级的唤醒词引擎,支持多语言,多平台。免费账号每个月只支持3个用户和3个唤醒词训练。 |
SnowBoy | |
讯飞语音唤醒 | 免费版10个用户90天试用期。 官网:https://www.xfyun.cn/service/awaken?type=awaken |
语音转文本
语音识别(Automatic Speech Recognition, ASR),也称语音转文本(Speech To Text,STT)。
名称 | 开发者 | 描述 |
---|---|---|
whisper | OpenAI | 是OpenAI在2022年9月开源的语音识别 (ASR)软件。可以用于本地离线识别,或安装在服务器上提供API。 支持语言:中文、英语、法语、德语、俄语、日语等几十种语言。 价格:免费。 官网:https://openai.com/index/whisper/ 源代码:https://github.com/openai/whisper |
OpenAI 语音识别API |
OpenAI | 基于开源 large-v2 Whisper 模型。 支持语言:中文、英语、法语、德语、俄语、日语等几十种语言。 价格:收费 官网:https://platform.openai.com/docs/guides/speech-to-text/speech-to-text |
PaddleSpeech | 百度 | 百度开源的语音方向的开源模型库,基于百度飞桨 PaddlePaddle。支持声音分类、语音识别(ASR)、语音翻译(英译中)、语音合成(TTS)和声纹验证。 支持语言: 源代码:https://github.com/PaddlePaddle/PaddleSpeech |
自然语言理解
自然语言理解 (Natural Language Understanding, NLU)
文本转语音
语音合成,
项目
名称 | 描述 |
---|---|
Mycroft | https://github.com/MycroftAI/mycroft-core |
wukong-robot | 是一个开源的中文语音对话机器人/智能音箱项目。 https://wukong.hahack.com/ |