澎湃Logo
下载客户端

登录

  • +1

讯飞连发三款智能录音笔,可离线转写拍视频秒配字幕

2020-09-02 07:47
来源:澎湃新闻·澎湃号·湃客
字号

原创 韦世玮 智东西

看点:连发三款硬核智能录音笔后,讯飞宣布要入局TWS耳机市场了!

智东西9月1日消息,刚刚,科大讯飞连发三款讯飞智能录音笔新品,型号分别为SR901、SR702和SR101,以及首款智能TWS耳机iFLYBUDS。

其中,SR901和SR702首次搭载离线转写功能,支持OCR文字提取,进一步延续了SR系列在智能转写、AI高清降噪和智能编辑等方面的优势,SR101是讯飞首款500元级录音笔,相比同价位产品也有着硬件优势和软件功能上的突破。

讯飞还面向商务人士的沟通和记录需求,推出首款立体声无线耳机(TWS)iFLYBUDS,拥有通话实时转写、智能拨号识别、通话译文三大核心AI功能。

▲科大讯飞副总裁兼消费者事业群副总裁李传刚

自2019年5月讯飞首款带屏录音笔——讯飞智能录音笔SR系列推出后,国内录音笔市场随之掀起了以AI技术为依托的品类创新浪潮。

作为今年科大讯飞的首场线下新品发布会,此次讯飞不仅补全了智能录音笔SR系列从入门到旗舰、再到尊享版市场的拼图,同时其首款TWS耳机的发布,也意味着讯飞智能语音和转写技术业务边界的突破。

“秉承着高效办公、智慧生活的理念,讯飞消费者业务已实现连续三年大于30%的增速,甚至今年逆势增长,在618中获得22项单品冠军。”科大讯飞联合创始人&执行总裁胡郁在现场谈到。

在他看来,讯飞在AI转写赛道上,不仅希望能为文字工作者的记录场景赋能,更希望成为每个人的知识管理工具。让每一位用户在忙碌之中,依然可以轻松地备忘信息、捕捉灵感、记录观点。“让我们一同开启高效记录新时代!”胡郁信心满满地说到。

那么,这次讯飞将会给我们带来它在智能转写赛道上的哪些技术和场景应用创新?这些创新背后又展露了讯飞哪些行业创新的战略和思考?来看现场发布干货给我们的答案。

▲科大讯飞联合创始人&执行总裁胡郁
让录音笔长眼睛:首推离线转写与OCR识别功能

与上一代产品相比,讯飞SR901和SR702智能录音笔的软硬件性能在转写、降噪、智能编辑等方面都有了明显升级,同时还新增了不少小而美的AI新功能,如OCR能力、图片拍摄识别文字、拍摄视频实现字幕等。

1、智能转写:支持无网转写及12种方言

转写功能的创新升级可谓是讯飞此次发布的重头戏。

为了帮助用户进一步解决在无网络环境下转写,以及隐私内容转写的需求,SR901和SR702录音笔升级了语音转文字引擎,行业首发离线转写功能。让用户无需在4G/Wi-Fi网络下就能实现语音实时转写并立即保存转写文字。

针对多语言、多语种的无缝切换识别和转写,讯飞推出新一代识别(转写)引擎——端到端新引擎,优化迭代了端到端语音识别框架。除了纯中文与纯英文模式识别外,端到端新引擎还支持中英混合识别场景,以及普通话-部分方言识别。

三款录音笔在方言和语种转写,以及专业领域转写方面也进行了升级,支持粤语、河南话等12种方言转写;藏语、维吾尔语2种少数民族语言转写;中、英、日、韩等8种语言转写;财经贸易、医疗、IT科技等7大专业领域的转写。

2、拾音降噪:最远拾音15米,可实现超远距离录音与转写

硬件方面,SR901采用2颗哈曼MEMS定向麦克风+10颗全向麦克风,SR702采用2颗定向麦克风和6颗矩阵麦克风,SR10采用1颗定向麦克风+2颗矩阵麦克风,且支持AI拾音降噪。

据称,讯飞录音笔最远拾音距离为15米,并且还能根据不同场景自动匹配场景算法。同时,它还采用非人声过滤,能够自动跳过没有人声的冗余录音,节约用户整理录音的时间。

实际上,讯飞录音笔还采用了前端降噪技术,基于自研神经网络与传统信号处理深度结合的降噪算法(SSA-IME),不仅能有效降低环境干扰噪声,还可消除干扰说话人的声音,从而大幅降低语音识别的处理难度。

据了解,该技术使讯飞录音笔在无喇叭的情况下,3-10米远距离转写效果提升30%;有喇叭的情况下,超远距离(20-50m)演讲场景转写效果为90%以上,这也体现了讯飞在远距离降噪转写技术上的领先性。

3、智能编辑:上线多人会议说话人分离

针对多人交谈会议场景,讯飞录音笔上线了其与ASR联合建模的说话人分离方案。

此外,三款讯飞录音笔升级了6项智能编辑功能:

智能语义分段:根据语义上下文进行分段,提升用户针对转写文档的浏览体验;

自动区分讲话人:根据录音及转写结果自动区分标注讲话人,针对多人讨论场景,用户还可快速检索目标说话人数据;

口语规整:可过滤语气词、重复词、无意义词,优化转写内容;

智能摘要:对录音内容进行全面的语义理解与分析,自动抽取关键信息,形成摘要结果;

个人词库:用户可提前输入专属词汇,实现转写时的智能编辑优化;

文件分享:支持文件分享功能,用户可自定义多种导出格式或模板,同时在文件编辑结束后,可选择文件分享至邮件。

4、绝招:看图识字,还能给视频配字幕

除了声音记录和转写之外,讯飞在三款新录音笔上也添加了图像方面的创新应用,如支持OCR文字识别、图片拍摄识别文字、拍摄视频实现字幕等。

硬件方面,讯飞智能录音笔SR901为后置三摄,包括1300万高像素主摄像头、800万像素120°超大广角摄像头、800万像素长焦摄像头;SR702为800万像素数字变焦后置单摄。

功能方面,SR901和SR702录音笔能够提取并实时记录图片上的文字内容,还可录制视频,进行实时收音。

有意思的是,讯飞录音笔拍摄完成并导出视频文件时,支持自动生成字幕和后期编辑字幕,为录音笔增添了新的图像/视频交互体验。

解密:讯飞如何突破离线转写技术难点?

在这次讯飞智能录音笔SR系列的小爆发背后,是其长达多年的技术积累和创新。

据智东西了解,此次发布中最大的技术亮点在于离线转写功能。不过,由于离线转写对硬件和算法方面都有着较高的要求,因此实现这项技术并非易事。

硬件方面,离线转写与离线听写有着很大差异。

离线听写多以短语音为主,数据是偶尔性调用,对瞬间运算能力有较大要求;离线转写多以长语音为主,数据调用一般持续1小时或数小时以上,对硬件的长时间算力、CPU功耗和散热情况等要求更高。

软件方面,离线转写需适配讯飞的离线转写算法,实现与云端相当的实时性和准确性。同时,还要确保整机在长时间的转写过程中,温度始终维持在合适范围内,这也是离线转写算法的关键难点。

针对这些难点,讯飞的转写技术主要从两个方面进行了优化和创新。

一方面,讯飞录音笔采用CPU主频自适应调整、线程数动态调度等方式来缓解设备发热情况,以确保设备处于离线转写运行时工作频率始终保持稳定。这样不仅能保障离线转写的实时性和准确性,还能保证整机温度的适宜。

另一方面,讯飞离线转写采用和在线转写几乎相同的核心算法,针对录音笔硬件的特性与指标进行裁剪与适配,包括模型蒸馏、定点化运算、多帧并行等技术,以实现流畅运行的目的。

基于这些突破,讯飞离线转写功能在此次新推出的智能录音笔上实现了首次落地。据了解,与云端转写相比,讯飞录音笔离线转写所损失的准确率低于相对10%。

讯飞首款TWS耳机iFLYBUDS的三大核心亮点

讯飞的创新发布不仅仅是智能录音笔,还有智能TWS耳机iFLYBUDS。

作为讯飞的首款智能TWS耳机,iFLYBUDS在诞生之初就将目标瞄准了商务应用市场,满足商务人士在自驾、通勤和会议等多场景中,进行高效记录和沟通的需求。

具体来看,讯飞智能TWS耳机iFLYBUDS有三大核心优势,分别为通话实时转写、智能拨号识别、通话译文。

iFLYBUDS通话转文字的功能,均支持iPhone和安卓手机,并不需要获得手机的通话录音权限,只需声音通过耳机即可在App上实现通话语音的转写。

1、通话实时转写

iFLYBUDS支持常规电话和网络电话,包括微信语音、腾讯会议和钉钉语音等。在多人会议场景下,iFLYBUDS还支持自动区分讲话人,方便用户快速查找通话内容。

通话时,用户可随时通过一键录音功能,将通话过程转文字,转写准确率达98%;通话结束后,iFLYBUDS将形成智能摘要,自动提炼通话重点内容,并支持对通话内容的多终端(手机端和电脑端)分享和编辑。

2、智能语音拨号

针对商务人士通讯录中联系人重名、同音等情况,iFLYBUDS支持用户通过多种方式区分人名,以快速找到正确联系人,提升拨号效率。

一方面,用户可通过纯语音交互,只说联系人姓名即可拨号;另一方面,用户还能通过词语举例、归属地名称区分的方式让耳机快速拨号,如“章子怡的章、立早章”、“北京的章总”。

3、通话译文对照

在外贸商务交流场景中,用户时常会遇到专业词生僻等语言沟通障碍。

为了解决这一用户需求,iFLYBUDS在用户进行英语通话时,能变身“翻译官”,帮助用户将通话内容实时转译为汉字,辅助用户英语沟通。

除了三大核心功能外,iFLYBUDS在音质、连接、延迟、续航和降噪方面也有着自己的特色。

其中在续航方面,iFLYBUDS支持2.5小时通话时长,4小时听歌时长,若搭配充电盒使用,可实现最长通话10小时,最长听歌20小时。

在极限使用场景下,iFLYBUDS同时进行通话+录音+转写的续航为2小时,搭配充电盒的最长使用时长为6小时。

降噪方面,iFLYBUDS的智能降噪功能采用双麦克风拾音,CVC降噪算法,保证用户在机场、健身房等嘈杂环境中的清晰流畅通话体验。

此外,iFLYBUDS还支持智能语音助手、自定义轻击耳机交互和佩戴检测等功能。

结语:讯飞消费者业务扩军智能录音笔,新玩法押注TWS赛道

回顾过去几年录音笔行业的发展,一面是传统录音笔市场的破局,一面是AI技术的迅速发展与落地。

科大讯飞作为一家国内老牌智能语音企业,紧紧地抓住了传统行业变革与新技术迸发的发展机遇,与过去自身长达20余年的语音技术基因相碰撞,从而催生出AI录音笔的新品类市场。

这既是讯飞的优势,也是它的挑战。从最初简简单单的录音笔到一块带屏智能录音笔,再到如今讯飞智能录音笔SR系列的补全,讯飞围绕语音技术的AI布局始终具有创新性和挑战性。

尤其是讯飞首款智能TWS耳机的诞生,不仅实现了AI转写等技术在多个设备的落地和创新应用,还进一步扩张了自身AI战略版图,将智能语音和转写赛道的边界拓宽到录音笔行业之外。

至此,讯飞以智能语音为基础的产品品类在AI转写赛道的布局,已愈发地多元化。同时,讯飞基于这些技术所带来的跨边界融合,也给整个录音笔和可穿戴设备行业的创新应用与发展,提供了一个新的思考路径和解决方向。

未来,讯飞消费者业务或将继续打破不同模态技术之间的应用与融合,将自身业务的边界拓宽到更远的领域。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

原标题:《讯飞连发三款智能录音笔!可离线转写拍视频秒配字幕,首推智能TWS耳机》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈