输入
形式:已录制音频
声道:单声道&多声道
支持格式:wav,flac,opus,m4a,mp3
基于语音流的不间断、免唤醒实时语音识别算法,具备强大的语音听写、语音转写、语音合成等能力,识别结果响应时间低于10ms,系统运行效率让信息沟通变得无比顺畅。
拥有领先的语音识别技术,核心技术达到国际领先水平,语音识别准确率已经超过98%,在业界遥遥领先。
用户可将一些非常见的词汇上传至识别引擎,当实时转写的音频流中出现该词汇时,引擎可将其识别出来,提高专业用语识别准确率。
运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。
对结果中出现数字、日期、时间等内容格式化成规整的文本。
形式:已录制音频
声道:单声道&多声道
支持格式:wav,flac,opus,m4a,mp3
形式:json格式字符串
编码:UTF-8
结果:分词形式&完整句子形式,词&句置信息度词&句时间戳,词属性,多候选词,文法格式智能转换,多发音人分离
将坐席通话转成文字,帮助电话质检和信息同步,也为数据挖掘提供原料基础。
将会议和访谈的音频转换成文字存稿,让后期的信息检索和整理更方便快捷。
将视频中音频文件进行语音转写,轻松生成与视频相对应的字幕文件。
可以从转写出的文字结果中搜索匹配相关词类,对黄暴/涉政内容进行高效鉴别。