娛樂城優惠 娛樂城優惠

亞馬遜首席迷信家:揭秘 Alexa 語音辨識技巧 05月17日更新_世界杯 比賽

3 月 18 日,由美中技巧與立異協會(Association of Technology and Innovation,ATI)主理的第一屆“AI NEXT”年夜會在西雅圖召開。本次會議的重要佳賓包含微軟首席 AI 迷信家鄧力、微軟院士黃學東、Uber 深度進修擔任人 Luming Wang 等。華人以外,還有亞馬遜 Alexa 首席迷信家 Nikko Strom、微軟 Cortana 架構15 8師 Savas Parastatidis 等業內著名專家。 年夜會主題是“索求 AI 的潛力,把 AI 技巧利用于有用專案和辦事”,對 CV、NLP、伶俐助手、深度進修框架均做了專題呈報。個中,亞馬遜首席迷信家 Nikko Strom 再次以“Alexa 是如何練成的”為主題,講述了 Alexa 的深度進修根本架構、聲學模子、語音分解等外容,雷鋒網清算以下: Nikko Strom,現任亞馬遜首席迷信家,是 Echo 和 Alexa 專案的開創成員,在語音辨識技巧相干範疇有資深研討及從業經歷: 1997 年于瑞典皇家理工學院語音通信試驗室取得博士學位,后擔負MIT電腦迷信試驗室研討員。 2000 年參加語音技巧始創公司 Tellme Networks。 2007 年跟著 Tellme Networks 被微軟收買,參加微軟,推動貿易語音辨識技巧的前廊研討。 2011 年參加亞馬遜,擔負首席迷信家,引導語音辨識及相干網域的深度進修專案。 以下是 Nikko Strom 在年夜會上的演講,雷鋒網在不轉變原意的基本上略刪減和彌補。 先簡略引見一下我們的產物。www taiwanlottery com tw receipt假如你買了 Amazon Echo,意味著你可以透過 Alexa 語音辨識體系操縱它,并與它對話,並且不必要拿遠控器。左側(下圖)是 Holiday Season,是我們新參加的白色Echo 和 Dot,信賴應當有許多人較偏幸白色的電子產物。 Echo 還可以與沒有內建 Alexa 體系的家電停止連線,如燈具、咖啡機、恒溫器等,只必要叫醒 Alexa,就可以讓這些家電裝配實行一些指令。此外,開闢者還可以透過對象包 Alexa Skills Kit,打造特性化的功效。 往常,Echo 已進入數百萬用戶的家中,天天都被大批應用,也讓我們獲得沒法想像的材料量。 深度進修基本框架 究竟上,人耳并非隨時都在搜集語音資訊,真正在“聽”的時候年夜約只占 10%,以是一小我生長到 16歲時,他/她所聽到的語音練習時候年夜概有 14,016 個小時。 回到 Alexa,我們把數千個小時的真實語音練習材料貯存到 S3 中,應用 EC2 云上的疏散式 GPU 集群來練習深度進修模子。 練習模子的進程中發明,用 MapReduce 的方式結果并不睬想,由於節點之間必要頻仍堅持同步更新,沒法再透過增長更多節點來加快運算。也能夠如許懂得,就是 GPU 集群更新模子的盤算速率特別很是快,每秒都邑更新幾回,每次更新年夜約是模子自身的年夜小。也就是說,每一個實行序(Worker)都要跟其他實行序同步更新幾百兆的量,而這在 1 秒內要產生許多次。以是,MapReduce 的方式結果并不是很好世界杯 線上。 我們在 Alexa 的處理方式就是,應用幾個切近親近算法(Approximations)來削減更新範圍,將其緊縮 3 個量級。這里是我們一篇 2015 年論文里的圖表,可以看到,跟著 GPU 實行序的增長,練習速率加速。到 40 個 GUP 實行序時,幾近成直線上升,然后增速有點放緩。80 GPU 實行序對應著年夜約 55 萬幀/秒,每秒語音年夜約包括 100 幀,也就是說而今這 1 秒鐘可以處置年夜約 90 分鐘的語音。後面我提到一小我要花 16 年的時候來進修 1.4 萬小時的語音,而用我們的體系,年夜約 3 個小時就可以學完。 這就是 Alexa 年夜致的深度進修基本架構。 聲學模子 年夜家都曉得,語音辨識體系框架重要包含四年夜塊:訊號處置、聲學模子、解碼器和后端處置。 起首我們會將從麥克風網絡來的聲響,停止一些訊號處置,將語消息號轉化到頻域,從每 10 毫秒的語音中提出一個特征向量,供應給后面的聲學模子。聲學模子擔任把聲訊分類成分歧音素。接上去就是解碼器,可以得出足球即時比分機率最高的一串詞串,最后一步是后端處置,就是把單詞組分解輕易讀取的字檔。 在這幾個步調中,或多或少都邑用到機械進修和深度進修。我明天重要講聲學模子的部門。 聲學模子就是一個分類器(classifier),匯入向量,匯出語音類其餘機率。這是一個典範的神經收集。底部是匯入資訊,隱蔽層將向量轉化到最后一層里的音素機率。 這是一個美式英語的 Alexa 語音辨識體系,以是會匯出美式英語中的各個音素。在 Echo 初揭櫫時,我們錄了幾千個小時的美式英語語音來練習神經收集模子,這本錢很高。當然,天下上還有許多其他說話,好比我們在 2016 年 9 月刊行德語版 Echo,假如重頭來一遍用幾千個小時德語語音來練習,本錢照樣很高。以是,這個神經收集模子一個風趣的處所,就是可以“遷徙進修”,你可以堅持原有收集中其他層不變,只把最后一層換成德語。 兩種分歧的說話,音素有許多紛歧樣,但仍舊有許多雷同的部門。以是,你可以只應用少許德語的練習材料,在稍作轉變的模子上終極可獲得不錯的成果。 錨定嵌入 在一個充斥許多人的空間里,Alexa 必要弄清晰究竟誰在語言。開端比擬簡略,用戶說一句叫醒詞“Alexa”,Echo 對應偏向的麥克風就會開啟,但接上去就比擬艱苦了。好比在一個雞尾酒派對,一小我說“Alexa,來一點爵士樂”,但假如他/她身旁有搭檔一路扳談,在很短的時候里都有語言,那麼要弄清晰究竟是誰收回指令就比擬艱苦。 這個題目的處理計劃來自 2016 年的一份論文《錨定語音偵測》(Anchored Speech Detection)。一開端,我們獲得叫醒詞“Alexa”,應用一個 RNN 從中擷取一個“錨定嵌入”(Anchor embedding),這代表叫醒詞里包括語音特征。接上去,我們用另一個分歧的 RNN,從后續請求論述中擷取語音特征,基于此得出一個端點決議計劃。這就是我們處理雞尾酒派對困難的方式。 雙連音片斷 Alexa 里的語音分解技巧,也用在 Polly 里。語音分解的步調一樣平常包含: 第一步,將字檔規格化。假如你還記得,這一步調正是對“語音辨識”里的最后一個步調的逆向操作。 第二步,把字素轉換成音素,由此獲得音素串。 第三步是癥結的一步,也是最難的一步,就是將音素天生波形,也就是真實的聲響。 最后,就可以把聲訊播放出來了。 Alexa 擁有持續的語音分解。我們錄下數小時的人類天然發音的聲訊,然后將其切割成特別很是小的片斷,由此構成一個材料程式庫。這些切割片斷稱為“雙連音片斷”(Di-phone segment),雙連音由一個音素的后半段和另一個音素的前半段構成,當終極把語音整合起來時,聲響聽起來的結果就比擬好。 建樹這個材料程式庫時,要高度細致,包管全部材料程式庫里片斷的同等性。別的一個緊張環節是算法方面,怎樣選擇最好片斷串列聯合在一路構成終極的波形。起首要弄清晰方針函數是什麼,來確保獲得最適合的“雙連音片斷”,和怎樣從複雜的材料程式庫里徵採到這些片斷。好比,我們會把這些片斷標簽上屬性,我明天談判到三個屬性,分離是音高(pitch)、長度(duration)和密度(intensity),我們也要用 RNN 為這些特征找到方針值。之后,我們在材料運彩分析推薦程式庫中,徵採到最好片斷組合串列,然后播放出來。 (本文由 雷鋒網 受權轉載;首圖起源:Amazon)

2019-03-19 21:31:00