zh

數據解決方案

請填寫姓名

手機號碼格式錯誤

請填寫手機號碼

請填寫公司全稱

請填寫企業郵箱

需求描述不能為空

提交成功!感謝您支持數據堂。

填寫格式錯誤請重新填寫

確定

需求描述格式錯誤且最少輸入5個字符

暫無數據

語音合成

首頁 > 新聞列表 > 語音識別新一輪競爭打響,自然對話會是下一個制高點嗎?

語音識別新一輪競爭打響,自然對話會是下一個制高點嗎?

來源:數據堂2022-03-03

當前,全球智能語音企業在朗讀風格語音的字錯誤率基本保持同等水平,隨著垂直化應用場景的增加,越來越多的企業開始加大在自然對話語音識別技術方面的研發投入。

萬億規模的龐大市場

多年來,語音識別技術越來越受到重視。它正成為與電腦、智能手機和智能設備相關的個人生活的一個常見部分。


語音設備的快速增長,消費者對智能設備的需求增加,以及車內信息娛樂系統的集成,是推動語音識別市場增長的關鍵因素。另外,人工智能在汽車、醫療保健和消費電子產品中的日益頻繁使用,增加了對語音設備的需求。同時,對智能揚聲器、消費電子產品、智能可穿戴設備、聯網汽車、智能家居和醫療保健等設備中的語音應用程序的需求不斷增長,是推動語音識別市場的關鍵因素之一。

根據市場研究機構Meticulous Market Research發布的最新報告預測,到2025年,語音識別市場規模將達到267.9億美元,從2019年到2025年,將以17.2%的年復合增長率持續增長。

不降反升的字錯誤率

眾所周知,語音識別系統常用的評估標準是詞錯誤率(Word ErrorRate,WER),也稱字錯誤率。為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換Substitution)、刪除Deletion)或者插入Insertion)某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。其公式如下:


拋開這些專業的測算方法,通過頻繁使用身邊的智能化語音產品,也可以清晰的感知出語音識別效果,但好像并不是所有的識別效果都是令人滿意的。我們不妨通過兩個案例來看一下

案例一:新聞聯播語音識別評測


數據來源

通過YouTube、CCTV中央電視臺官方頻道爬取2019年全年新聞聯視頻內容。分12個月,每個月抽取2期,共計24期節目,并抽取音頻,共計時長約12小時。

場景特點

環境主體為密閉錄音棚,安靜,無背景噪聲。穿插少量會場、戶外采訪

拾音設備專業高保真麥克風,等同于近場,聲音質量極好

說話人主體為專業播音員,穿插少量領導人講話,記者及被采訪對象

說話方式主體為朗讀式,中等語速,幾乎無口誤、重復、停頓等現象

口音、方言無,極標準普通話

內容領域國家時政新聞

評測結果

案例二:德云社相聲語音識別評測


數據來源

通過德云社Youtube官方頻道專場播放列表隨機選取5期,累計約2.5小時。

場景特點


環境多為演出現場舞臺,環境空曠,存在混響,存在背景噪聲(觀眾笑聲、掌聲、起哄等),無背景音

拾音設備相聲演員前方的立式麥克風或者領夾麥克風、近場

說話人郭德綱、于謙、岳云鵬等德云社相聲演員

說話方式相聲特有,雙人交替,語速中等偏快

方言大部分為普通話,偶有少量模仿的方言片段

內容領域娛樂、相聲段


評測結果

為什么會出現這么大的差別?

對比以上兩個案例,我們不難看出,新聞聯播的場景特點非常接近語音識別的理想場景,基本可以代表現有的中文語音識別系統性能上限,字錯誤率達1%-2%,即100個字中只發生一到兩個字的錯誤。


然而,更多的場景可能更接近案例二,說話人的發音習慣更貼近日常溝通行為,在發聲時會有大量的連音、吞音、發音變形、咬字不清等,包括一些無意識的“嗯、啊、呃”等,不會刻意去控制語音、發音習慣等,再加上外部環境與方言、語種等因素的影響,這種偏向于日常的自然對話風格的語音識別率不是很理想。

如果一個智能語音產品要求說話人達到新聞聯播主播的聲音標準才能給出足夠多的識別結果,基本是不可能的??梢?,自然對話風格的語音識別結果才是判斷一個語音識別平臺是否優秀的最高標準。

一份來自數據堂的解決方案

好的AI需要更好的訓練數據。目前數據堂擁有20萬小時成品語音數據集,其中,自然對話風格的語音數據近4萬小時,包括中文普通話、方言、英語、日語、韓語、印地語、越南語、阿拉伯語、西班牙語、法語、德語、意大利語等。

考慮到多信道對識別率的影響,中文普通話自然對話語音數據涵蓋了手機、電話、網絡等多種信道類型。


數據堂自然對話語音數據集還覆蓋了全國七大方言區,發音人來自不同地域及城市、年齡性別覆蓋均衡。語種方面包含日、韓、印地、越南、阿拉伯等亞洲語系,法、德語、意大利、西班牙等歐洲語系及各國人英語對話等。


在采集數據時,完全沒有預設語料,只給出話題列表,錄音人從中挑選多個自己感興趣并熟悉的話題展開對話,確保對話語音自然流暢。


所有音頻都經過了嚴格的人工轉寫及質檢,標注文本內容、有效句子的起止時間點、錄音人身份標識等,句準確率高達95%以上。

數據堂的對話式語音成品數據集已經服務于全球100多家企業的語音識別產品中,成功應用到智能客服、智能會議、視頻字幕自動生成等眾多場景。

后疫情時代下的AI賦能

疫情改變了生活,也改變了我們的生活方式。人工智能技術的應用場景更加豐富,也更加落地。

與往屆大會不同,2020年世界制造業大會更加凸顯了人工智能技術賦能之廣泛。在主論壇開幕式環節,大眾集團董事會主席迪斯、惠而浦全球首席執行官馬克·比澤爾、阿里巴巴集團董事會主席張勇、華為技術有限公司常務董事余承東等出席會議并做相關演講,訊飛聽見實時雙語字幕位于主屏幕兩側,為國際會議的無障礙交流提供了技術支持。


訊飛聽見在華為昇騰A.I.新品全球發布會提供自然風格的中文實時轉寫、翻譯德語、俄語、法語、韓語等多語種字幕服務。


2022年2月10日,Cerence賽輪思宣布將為日本先鋒株式會社(Pioneer Corporation)提供自然的對話式語音識別技術支持。無論日本消費者駕駛任何類型的汽車,通過先鋒的智能化產品都可以為他們帶來安全的高效的日語語音個性化體驗。


人工智能是一個偉大的歷史進程,其起步至今,已迎來了人工智能規?;涞卦?。未來,隨著5G等技術的同步發展,越來越豐富的語音識別應用場景也將促進不同語言、不同膚色、不同地域之間的無障礙溝通。

附數據堂自然對話語音數據清單


語音合成(TTS)_數據堂 免费高清av一区二区三区-午夜爱爱爱爱爽爽爽视频网站-3D无遮挡H肉动漫在线播放-小泽玛利亚一区二区免费-欧洲A片-亚洲中文字幕一二区精品自拍