zh

數據解決方案

請填寫姓名

手機號碼格式錯誤

請填寫手機號碼

請填寫公司全稱

請填寫企業郵箱

需求描述不能為空

提交成功!感謝您支持數據堂。

填寫格式錯誤請重新填寫

確定

需求描述格式錯誤且最少輸入5個字符

暫無數據

語音合成

AI數據開源計劃

1,505小時中文普通話語音數據

數據堂-AI數據服務-人工智能數據采集與標注-活動背景 數據堂-AI數據服務-人工智能數據采集與標注-活動說明
Activity
Background

活動背景

AI數據開源計劃是數據堂面向高校和學術機構等非商業組織群體推出的學術支持計劃,旨在賦能全球AI學術研究。數據堂將持續提供AI訓練數據集給學術研究者,以幫助其攻克數據難關,充分發揮專業能力,實現技術進步,促進社會發展。

歡迎加入數據堂開源計劃,與我們一起共建智能時代。

Activity
Description

活動說明

  • 面向高校和學術機構等非商業組織的群體提供開源數據
  • 開源數據及其衍生產品(包括但不限定于衍生數據和模型)未經允許禁止任何形式的商業用途
  • 當公開發表展示利用數據堂開源數據的全部或者部分獲得的科研成果時,必須在所獲科研成果中注明使用 “數據堂AI數據集”或“Datatang AI Dataset”,并且同時注明出處http://www.sxsjwl.cn

數據堂將保留對所有開源計劃的最終解釋權

【開源數據集aidatatang_1,505zh

1,505小時 中文普通話語音數據集】

數據介紹

【1,505小時 中文普通話語音數據集】數據時長1505小時,是數據堂中文普通話語音數據庫中的一部分。采集區域覆蓋全國34個省級行政區域,參與錄音人數達6408人,錄音內容超30萬條口語化句子。經過專業語音校對人員轉寫標注,并通過嚴格質量檢驗,句標注準確率達98%以上,是行業內句準確率的最高標準。(僅支持學術研究,未經允許禁止商用)

數據集詳情
格式 16kHz 16bit,wav,單聲道
錄音環境 安靜的室內,噪音不影響語音識別
錄音內容 30萬條口語化句子
錄音人員 6,408 人
男性 2,999 人,女性 3,301 人
≤20 歲 1,481 人,21~30 歲 4,412 人,31~40 歲 244 人,40 歲以上 163 人
錄音人員分布于廣東、福建、山東、江蘇、北京、湖南、江西、香港、澳門等 34個省級行政區域
設備 安卓:iOS=9:1
語音 普通話;有口音的普通話
應用場景 語音識別
機器翻譯
聲紋識別
準確率 句標注準確率不低于98%
使用效果

基于aidatatang_200zh數據集的語音識別模型訓練效果,測評結果:

GMM-HMM TDNN CHAIN
CER SER CER SER CER SER
12.22% 43.11% 7.14% 31.19% 5.59% 26.06%

基于aidatatang_1,505zh數據集的語音識別模型訓練效果,測評結果:

GMM-HMM CHAIN
CER SER CER SER
7.35% 35.98% 3.14% 23.05%
  • 注:
  • *CER(Character Error Rate)指字識別錯誤率。
  • *SER(Sentence Error Rate)指句識別錯誤率。
  • *GMM-HMM指混合高斯模型-隱馬爾科夫模型。
  • *TDNN(Time-delay Neural Networks)指時延神經網絡模型。
  • *CHAIN(Chain model)是指鏈式模型。
訓練方法 基于aidatatang_200zh數據集的訓練方法點擊查看
(說明:aidatatang_200zh數據集是aidatatang_1,505zh數據集中的一部分)

獲取方式

開源數據【1,505小時 中文普通話語音數據】,我們提供以下獲取方式:

開源計劃合作機構

數據堂-AI數據服務-人工智能數據采集與標注-開源計劃合作機構
數據堂-AI數據服務-人工智能數據采集與標注-開源計劃合作機構
數據堂-AI數據服務-人工智能數據采集與標注-開源計劃合作機構
數據堂-AI數據服務-人工智能數據采集與標注-開源計劃合作機構
數據堂-AI數據服務-人工智能數據采集與標注 免费高清av一区二区三区-午夜爱爱爱爱爽爽爽视频网站-3D无遮挡H肉动漫在线播放-小泽玛利亚一区二区免费-欧洲A片-亚洲中文字幕一二区精品自拍