<form id="5db4o"><legend id="5db4o"></legend></form>
    <form id="5db4o"><legend id="5db4o"><noscript id="5db4o"></noscript></legend></form>
    <form id="5db4o"><legend id="5db4o"></legend></form><nav id="5db4o"></nav>
    <nav id="5db4o"><listing id="5db4o"></listing></nav>
        ?

        GigaSpeech:10000小時多領域英語開源數據集發布

        近日,我院AI大數據中心協同清華語音與音頻技術實驗室成功發布全球最大多領域英語開源GigaSpeech數據集。歡迎“讓語音技術更易于使用”的志愿者或從業者與我們一起合作與貢獻!

        語音識別的性能,很大程度上取決于訓練數據集的規模和覆蓋性。現有的語音開源數據集適用領域狹窄,缺少難度挑戰,準確率接近飽和。學術界和工業界研究開始分道揚鑣,碎片化嚴重。作為目前全球最大的多領域英語開源數據集,GigaSpeech致力于推動學術界和產業界的共同進步。

        01

        概述

        GigaSpeech是一個不斷發展的、多領域英語語音識別語料庫。它擁有10000小時的高質量標注音頻,適用于有監督訓練任務;以及33000小時的總音頻,適用于半監督和無監督訓練任務。

        本競賽邀請學界和業界同仁基于主辦方前期口語識別AD的研究基礎上,發掘基于口語數據判別AD、MCI或正常人的方法,為健康中國貢獻力量。

        02

        數據來源及質量控制

        從發音風格和覆蓋主題入手,GigaSpeech從有聲讀物、播客和YouTube上收集了約33000小時的轉錄音頻,以及對應的人工轉錄文本、人工字幕等,涵蓋誦讀和自發口語等一系列不同風格,以及藝術、科學、體育等多種主題。

        音頻來源標注小時數總小時數聲學條件
        有聲讀物2,65511,982朗讀;不同性別、年齡、口音
        播客3,4989,254干凈或帶背景音樂;室內;近場;自發口語;不同性別、年齡、口音
        Youtube3,84511,768干凈或帶噪;室內、室外;近場、遠場;朗讀、口語;不同性別、年齡、口音
        總計10,00033,005 

        在質量控制上,GigaSpeech提供一種新的強制對齊和分段處理pipeline工具,以創建適合ASR訓練的句子段,并濾除低質量轉錄片段。對于有監督訓練任務,GigaSpeech提供了5個不同規模的子集。在過濾驗證環節,最大訓練子集的詞錯誤率控制在4%以下;其它較小規模的子集的詞錯誤率控制在0%。

        03

        適用于有監督訓練任務的數據子集詳情

        GigaSpeech提供了10小時、250小時、1000小時、2500小時和10000小時等5個不同規模的子集,以適用于有監督訓練任務。詳情如下表所示:

        數據子集小時數適用任務類型
        XS10System building and debugging
        S250Quick research experiments
        M1,000Large-scale research experiments
        L2,500Medium-scale industrial experiments
        XL10,000Large-scale industrial experiments

        04

        開發集和測試集

        數據子集小時數說明
        Dev12Randomly selected from the crawled Podcast and YouTube Data
        Test40Part of the subset was randomly selected from the crawled Podcast and YouTube data; part of it was manually collected through other channels to have better coverage.

        05

        排行榜

        為方便使用,GIgaSpeech為主流的ASR框架提供了baseline的訓練腳本,并開放leaderboard排行榜,目前提供的系統包括Athena、Espnet、Kaldi、Pika、WeNet,后續還將繼續更新與完善。

        工具集系統鏈接地址Dev/Test WER
        AthenaTransformer-AED + RNNLMhttps://github.com/athena-team/athena/tree/master/examples/asr/gigaspeech13.60 / 12.70
        EspnetConformer/Transformer-AEDhttps://github.com/espnet/espnet/tree/master/egs2/gigaspeech/asr110.90 / 10.80
        KaldiChain + RNNLMhttps://github.com/kaldi-asr/kaldi/tree/master/egs/gigaspeech/s514.78 / 14.84
        PikaRNN-Thttps://github.com/tencent-ailab/pika/tree/12.30 / 12.30
        WeNetConformer-AEDhttps://github.com/wenet-e2e/wenet/tree/main/examples/gigaspeech/s011.00 / 10.90

        06

        使用申請入口

        GigaSpeech數據集已開放,歡迎大家使用。
        申請入口:
        https://forms.gle/UuGQAPyscGRrUMLq6
        更多細節,請訪問github鏈接:
        https://github.com/SpeechColab/GigaSpeech
        預印版論文地址(已被InterSpeech 2021接收):
        https://arxiv.org/abs/2106.06909

        07

        進一步合作

        我們是一群試圖讓語音技術更易于使用的志愿者,歡迎各種形式的合作與貢獻。目前我們正在探索以下方向,如果您對某些方向感興趣,并且認為自己能夠提供幫助,請聯系 gigaspeech@speechcolab.org。

        • 不同預訓練模型的推理架構
        • 增加多樣化的數據來源
        • 對語音算法/服務進行基準測試
        • 構建和發布預訓練模型
        • 支持更多語言
        • 支持更多任務(例如說話人識別等)
        • 制作新數據集

        08

        發起人

        无遮挡裸体免费视频 - 视频 - 在线观看 - 电影影院 - 品赏网