600字范文 > 汉字转拼音文字转语音tts (语音技术语音识别) Asr/tts 变声

汉字转拼音文字转语音tts (语音技术语音识别) Asr/tts 变声

时间：2023-02-07 12:22:29

语音识别，语音合成。语音技术主要分两块：一块是语音转文字，即语音识别；另一块是文字转语音，即语音合成。

语音相关技术研发语音合成技术整体解决方案。一系列语音技术的相关专利，包括文本处理、韵律预测、声学模型、拼接系统、模型自适应、神经网络、情感合成等多个方面。

应用场景：在线语音合成、离线语音合成系统场景- 读故事，小说频道，读新闻(新闻中的语音播报)。声学行业.。

智能音箱大战全面开火- /dqcfkyqdxym3f8rb0/article/details/78574066

Librispeech是当前衡量语音识别技术的最权威主流的开源数据集。错词率（Worderrorrate，WER）是衡量语音识别技术水平的核心指标。近日，云从科技在Librispeech数据集上将错词率（Worderrorrate，WER）降到了2.97%，较之前提升了25%。超过阿里、百度、约翰霍普金斯大学等企业及高校，大幅刷新原先记录。

tts识别，合成，播放。

-- 支付宝的语音收款方案为：文字已经录好在文件中

Android支付宝商家收款语音播报（无SDK）- /p/62e6382c610b

支付宝商家语音播报- /YzyCoding/PushVoiceBroadcast

--变声：萝莉/大叔/卖萌/搞笑等

Android QQ变声特效例子- /huanglinqing123/ChangeVoice/tree/master

在QQ中我们使用到的一个功能就是变声，QQ是使用FMOD实现的，那么同样的我们也使用FMOD让自己的应用可以变音。

fmod Ex 声音系统是为游戏开发者准备的革命性音频引擎，链接：/s/1TW3ctQd0o5bOVCx5gKL0hA 密码：x2o4 。 fmod声音系统是为游戏开发者准备的革命性音频引擎，如今采用了fmod作为音频引擎的游戏包括Far Cry（孤岛惊魂）、Tom Clancy's Ghost Recon（幽灵行动），甚至著名的World Of Warcraft（魔兽争霸）。

仿QQ语音变声功能实现- /CN-ZPH/MySound /fsrmeng/VoiceChange /Android-LiuHuan/MyVoice

> 语音识别（ASR）与语音合成服务（TTS）

语音识别(ASR)、语音合成(TTS)、语义理解(NLP)等技术。

语音识别ASR技术通识- /ZLJ925/article/details/79045034

MRCP协议-提供语音识别（ASR）与语音合成服务（TTS）-/chenwen/1434915

语音识别技术（ASR）——将人说话的语音信号转换为可被计算机识别的文字信息，从而识别说话人的语音指令以及文字内容的技术。

语音合成技术（TTS）——将文字信息转变为语音数据，以语音的方式播放出来的技术。

TTS，英文全称是TextToSpeech，即文语转换，又称为计算机语音合成，它的过程和ASR刚好相反，是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为，语音合成系统包括三个主要的组成部分：文本分析模块、韵律生成模块和声学模块。目前，TTS的技术已经可以达到商业化的地步。

-- MRCP

媒体资源控制协议(Media Resource Control Protocol，MRCP)是由Cisco、Nuance等公司联合开发的网络协议，该协议由IETF作为Internet草案发布(draft-shanmugham-mrcp-07)。该协议为那些需要进行语音处理的客户端提供了一种通过网络来控制媒体处理资源(如ASR、TTS引擎等)的机制。该协议在设计之初就考虑了可以在将来得到扩展以支持声纹鉴别和身份识别(Speaker Identification/Speaker Verification)等功能。

媒体资源控制协议（Media Resource Control Protocol, MRCP）是一种通讯协议，用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)。

MRCP并不定义会话连接，不关心服务器与客户端是如何连接的，MRCP的消息通常是承载于其它协议之上，如RTSP，SIP等。

MRCP消息使用类似于HTTP等许多Internet协议一样的文本格式，每个消息包括三部分：首行，消息头，消息体。首行表明消息类型及返回码等信息。消息头包括了若干行内容，每一行都形如 "字段名:数值"。消息体包括了消息的详细内容，长度在消息头中指定。

随着MRCP协议的不断推广与应用，各语音技术厂商在实践与部署过程中碰到了各种各样的问题。为此，IESG(The Internet Engineering Steering Group)于2002年特许成立了Speechsc工作组，专门负责起草更加完善高效的支持分布式语音资源处理的开放协议。在Speechsc工作组的努力下，改进后的MRCPv2(draft-ietf-speechsc-mrcpv2-09)很快应运而生了。MRCPv2的消息格式和资源状态机等都建立在MRCP协议版本1的基础之上，它完全兼容W3C的SSML、SRGS、NLSML标准。与MRCPv1不同的是MRCPv2消息不再依赖RTSP作为载体，而是作为独立的消息进行传输，但是它仍依赖于会话管理协议，如SIP(Session Initiation Protocol)协议，来在客户端与服务器端之间建立控制会话。

MRCP设计的特定目标很明确，就是为那些采用不同厂商的ASR和TTS产品来构建IVR或消息类应用的开发商提供便利。

-- 主流语音技术

目前国外几乎所有的主流语音技术供应商都已经宣布推出基于MRCPv1的产品：

● 语音资源供应商：Acapela、BBN、IBM、Loquendo、Nuance(ScanSoft)、Rhetorical、Telisma等；

● 板卡技术供应商：Intel、NMS、Aculab等；

● 语音技术应用集成商：Cisco、Nortel、Lucent、HP、Edify、Genesys、Intervoice、SER、Unisys、Convedia等。

市场上有很多比较成熟的语音ASR和TTS产品，而且他们大多数都支持二次开发，如微软的Speech Application SDK（SASDK）、IBM的Dutty++等。他们能识别（生成）英语、日语和中文等不同国家的语言，Dutty++甚至能够识别某些地区的方言，如广东的方言－粤语。

科大讯飞、百度语音、捷通华声、云知声等。阿里云语音识别。

微软SAPI将ASR和TTS功能集成在同一个语音引擎中，TTS可以将文本和文件合成为语音，ASR则是将人的声音信号转换为可读的文本或文件。

语音识别（Automatic Speech Recognition），一般简称ASR；是将声音转化为文字的过程，相当于人类的耳朵。

语音识别原理流程：“输入——编码——解码——输出”

语音识别，大体可分为“传统”识别方式与“端到端”识别方式，其主要差异就体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型（HMM），而“端到端”方式一般采用深度神经网络（DNN）。

远场语音识别，简称远场识别，口语中可更简化为“远场”。下面主要说3个概念：语音激活检测、语音唤醒、以及麦克风阵列。

iphone 6s 语音激活的低功耗芯片.按麦克风个数分：单麦、双麦、多麦 .

车内语音识别的难点很多，除了多人说话的干扰，还有胎噪、风噪，以及经常处于离线情况。

语音识别系统的性能大致取决于以下4类因素：1. 识别词汇表的大小和语音的复杂性；2. 语音信号的质量；3. 单个说话人还是多说话人；4. 硬件。

媒体采集设备主要用来采集各种语音信号，如对普通的电信网，就是PCM a律信号的采集；而对VOIP应用，采集的信号可能有很多种，包括G.711/G.723/G.729等各种语音格式。同时，该设备还需要具备一定的媒体转换能力，能将各种媒体流转换为ASR能够识别的语音格式。

语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。

TTS的技术实现方法，主要有2种：“拼接法”和“参数法”。

语音识别主要识别框架：基于模式匹配的动态时间规整法（DTW）和基于统计模型的隐马尔可夫模型法（HMM）。

> 汉字转拼音（ASCII码映射等）

Android 汉字转拼音的多种实现方式- /zhuwentao2150/article/details/70230341?ref=myread

利用Android源码，轻松实现汉字转拼音功能- /D_clock/article/details/69890954

HanziToPinyin（汉字转拼音）- /D-clock/7a6e33f42c0177439a49d85b73f1e600

jpinyin- /stuxuhai/jpinyin

--Android平台上将汉字转换成为拼音已经有一些开源的第三方实现方案，如pinyin4j和TinyPinyin

TinyPinyin：/promeG/TinyPinyin

建立一个大的对照表(比如用关联容器Map)，同时一个汉字可能有多个发音，也就是说Map这样的容器时不行的，因为其<key,value>必须是一一对应的。在C++中可以用STL里面的multimap来解决这个问题，但Java中没有类似multimap这样的东西，除非自己实现一个。pinyin4j（将汉字转化为拼音）：/projects/pinyin4j .

Pinyin4j（/）就是为了解决类似这样的问题的。它是上的一个开源项目，功能非常强大：

1.支持同一汉字有多个发音

2.还支持拼音的格式化输出，比如第几声之类的，

3.同时支持简体中文、繁体中文转换为拼音…使用起来也非常简单。> TTS

--汉语拼音开源：tinypinyin, pinyin4j

城市demo-- /18722527635/CityDemo

> 语音识别引擎

Android中文语音合成（TTS）各家引擎对比- /yao_guet/article/details/7231489/

Android 文本转语音TextToSpeech (TTS)- /zhoumushui/article/details/50496661

【Android语音合成TTS】国内主流引擎对比- /fengyuzhengfan/article/details/45052823

-- 五款免费开源的语音识别工具- /godloveyuxu/article/details/77416017

直到几年之前，最先进的语音技术方案大多都是以语音为基础的（phonetic-based），包括发音模型（Pronunciation models），声学模型（Acoustic Modelling）和语言模型（Language Model）等。通常情况下，这些模型大多都是以隐马尔可夫模型（HMM）和 N-gram 模型为核心的。

五款基于 HMM 和 N-gram 模型的语音识别工具：CMU Sphinx，Kaldi，HTK，Julius 和 ISIP。它们都是开源世界的顶级项目，与 Dragon 和 Cortana 等商业语音识别工具不同

基于 Julius 的语音识别样例- /julius-speech/dictation-kit

18 个开源翻译工具帮助你的项目本地化- /hj7jay/article/details/74171368

-- 常见的语音sdk主要有：科大讯飞、百度语音、捷通华声、云知声等手说TTS；讯飞的语音识别/百度语音识别

Google Cloud API，百度，科大讯飞的都是初期免费，量大收费.

JAVA SPEECH 和 SPHINX 等实现方式, 语音引擎(TTS引擎) IBM以前那个语音识别；

到google上去搜索iris.TTS，就是语音转文本，其中涉及的语音采样（本地，方言，外语等等）识别技术，在国内有科大讯飞和捷通比较有名，在国外有一个叫luance公司比较有名。

> Android中文语音合成引擎的设计与实现，及在Android上应用

Google的TTS对中文不支持，支持英文。

android自带的类，从文本中合成语音，用于立即播放或创建一个声音文件.中文的话，需要手机系统有安装中文引擎吧

https://developer./reference/android/speech/tts/TextToSpeech.html

/SolveBugs/Utils