<form id="5db4o"><legend id="5db4o"></legend></form>
    <form id="5db4o"><legend id="5db4o"><noscript id="5db4o"></noscript></legend></form>
    <form id="5db4o"><legend id="5db4o"></legend></form><nav id="5db4o"></nav>
    <nav id="5db4o"><listing id="5db4o"></listing></nav>

        2021年第十六屆全國人機語音通訊學術會議(National Conference on Man-Machine Speech Communication,NCMMSC2021)將于2021年10月15-18日在江蘇徐州舉行。本次會議由中國中文信息學會和中國計算機學會聯合主辦。

        針對本次會議,由騰訊科技 ASR&OCR oteam聯合清華大學電子工程系等單位共同發起圍繞時下在工業界最為關注的三類媒體形式---長視頻、短視頻、直播場景進行比賽。

        本次比賽由易到難,Task1將關注模型場景失配下長短視頻及直播中漢語關鍵詞的檢測問題;Task2則擴展到Task1的多語種和多方言關鍵詞場景;Task3會根據視頻畫面里的字幕信息和語音識別信息。共同打造SOTA的長、短視頻、直播場景的字幕語音內容識別多模態工業級解決方案。

        Task1

        漢語長短視頻直播語音關鍵詞

        Video Keyword Wakeup Competition, VKW

        競賽介紹

        可自定義關鍵詞喚醒能夠在不使用全文ASR解碼的前提下,快速檢測出長短音視頻和智能設備中的關鍵詞(喚醒詞),廣泛應用在設備自定義解鎖和喚醒、各類救護、火災等事件報警、命令識別、語音內容的檢索和分析等任務中。

        Task1 長短視頻可自定義關鍵詞喚醒(Video Keyword Wakeup Competition)比賽旨在檢驗業界利用朗讀數據等常規數據公司可獲取的大規模數據構建任意自定義關鍵詞檢測系統的能力。提供少量可供微調的真實長短視頻及直播數據,檢驗場景失配下自定義關鍵詞檢測系統的魯棒性和泛化性。

        賽道設置

        • 受限賽道

          只允許使用官方提供的1505小時普通話朗讀數據及各50小時的長短視頻、直播數據作為有監督語音訓練數據,外部數據可使用開源發布的預訓練模型及開源語言模型、網絡爬取的文本等。可使用外部數據進行數據擴充和預訓練,但不得使用外部數據的標注腳本。

        • 非受限賽道

          參賽隊伍可使用可公開獲取的標注數據、任意無標注數據進一步提升系統性能,但需要在最終提交系統說明里提供數據來源(如可使用http://www.openslr.org/中的開源數據并注明數據來源)。

        指定數據

        • 訓練數據

          1505小時普通話朗讀數據
          由數據堂提供

        • 調參集

          長視頻、短視頻、直播場景各50小時標注數據供微調

        • 開發集

          長視頻、短視頻、直播場景各5小時。用于調整參數,選擇特征等系統工作點優化

        • 測試集

          長視頻、短視頻、直播場景各20小時。用于評價提交系統,賽后可提供原始數據、標注及關鍵詞列表

        報名方式

        • 下載報名表,并填寫相關信息,發送至報名郵箱:VKW@datatang.com

          郵件主題:【VKW-隊伍名稱】

          注:為保持比賽公平公正,比賽結果以隊伍名為準,不公布具體參賽單位
        • 下載報名表

        競賽指導委員會

        黃申

        騰訊科技 ASR oteam

        呂志強

        騰訊科技 ASR oteam

        張衛強

        清華大學

        謝磊

        西北工業大學

        王大亮

        數據堂(北京)科技股份有限公司

        注:排名不分先后

        Task2

        多語種多方言長短視頻直播語音關鍵詞

        Low-resouce Video Keyword Wakeup Competition, LVKW

        競賽介紹

        我國是一個多語言、多方言的國家,在長視頻、短視頻和直播場景中,下沉場景時語言的當地化現象非常明顯,而通用的設備關鍵詞喚醒往往只支持漢語。如何在多語言、多漢語方言場景下,喚醒出各場景中的自定義關鍵詞,是本任務的研究方向。本任務主要包括蒙、藏、維、哈、朝、彝、壯等少數民族語言,西南、中原等各類官話,晉語、吳語、徽語、湘語、粵語、贛語、閩南語及客家話等漢語方言。

        比賽詳細信息稍后發布,敬請期待......

        Task3

        漢語長短視頻直播字幕ASR&OCR

        Video ASR OCR Competition, VAO

        競賽介紹

        在長短視頻、直播等視頻場景中,通常會伴有已經制作好的視頻字幕、人臉存在時的唇語等輔助信息。如何利用其他模態的輔助信息以提升ASR識別率,尤其是背景音樂、嘈雜噪聲等低信噪比情況下,提升ASR的性能是本任務的關注點;反過來,雖然OCR比ASR識別效果更加準確,但OCR由于畫面的復雜,冗余信息多(如標題、臺標等),對于字幕部分的提取和識別也存在較大的困難。如何利用ASR等語音信息,指導OCR進行更好的輸出,使得用戶“看到”真正重要的口語內容信息,使得多模態內容文字識別率互為促進和提升,是本任務的研究方向。

        比賽詳細信息稍后發布,敬請期待......

        反作弊聲明

        • 參與者禁止提交多次報名,經發現將取消成績并嚴肅處理。

        • 參與者禁止在指定考核技術能力的范圍外利用規則漏洞或技術漏洞、額外數據等不良途徑提高成績排名,經發現將取消成績并嚴肅處理。

        關于比賽的詳細信息,報名表,請參閱網站:https://datatang.com/VMR

        无遮挡裸体免费视频 - 视频 - 在线观看 - 电影影院 - 品赏网