一切都源自于一個紅包,下午,朋友發(fā)消息給我說,讓我領個紅包。
打開后,看到紅包,我不禁笑了。想我**普通話水平等級測試一級乙等的水平,豈會怕一個小小的語音口令?
我清了清嗓子,以**的“播音腔”,念了“四十是四十,十四是屎拾”,小程序冷笑了一聲,返回給我了個“再接再厲,再錄一次”。
我以為是自己沒說好,站起身,氣沉丹田,再次念了一次“四十是四十,十四是屎拾”,旁人紛紛對我傳來了異樣的眼光.....然而異樣的眼光也并沒有什么卵用。。。
我灰溜溜的走出房間,找了一處無人的地方,一次次的嘗試去讀“四十是四十,十四是屎拾”。然而努力是沒有結果的,每次都是無功而返。
既然無法搶到紅包,氣急敗壞的我開始想,為什么我這么**的普通話,還搶不到紅包?
作為一個普通話一乙的北方人,如果我都領不了紅包,豈不是只有一甲的播音員們才能搶到?問題肯定不在此。于是,我開始動用我身為程序員的本能,開始分析小程序背后的技術。
終于,我想到了,它之所以能夠做到讀對口令才能搶到紅包,完全是依賴于背后的一項技術——“語音識別”
語音識別背后有非常多的技術,我這里盡量簡單的給你說明什么是語音識別。
首先,用戶在 App 中按下按鈕,錄制語音,然后 App 會將音頻上傳到后臺的服務器,后臺的服務器對聲音進行特征提取,傳遞給下個階段的處理器,這個時候,我們的聲音信號已經由聲音信號轉變?yōu)樘幚砗蟮奶卣餍盘枴?/span>
然后處理器再通過接入 “聲學模型”,來獲取不同的特征信號可能**的字詞;再由“語言模型”,實現(xiàn)對所有可能字詞的選擇,得出可能的結果。
**終,經過一系列的處理,我們說話的一段語音信號,就變成了一句話 “你吃飯了么?”
英語流利說的語音識別功能是非常厲害的,就如其廣告中所說“會打分的人工智能英語老師”,英語流利說的依仗,便是其比別人更加的”聲學模型“和”語言模型“
學員在手機上錄音,錄音經過上傳,到云端進行特征提取,再由“模特聲音訓練過”的“聲學模型”進行處理(這里的模特聲音訓練過非常重要,訓練材料的不同會導致模型的天差地別),聲學模型處理過后,文字會傳遞給語言模型,組合成句。在完成兩處處理后,對聲音信號和文字信號進行打分,如果你的準確率比較高,你就能夠獲得一個Nice!
語音上傳部分我打了問號,是因為流利說本身也有離線打分引擎,所以可能我們的語音沒有上傳到云端,在本地就直接進行處理了。
更細致的信息你可以到 「英語流利說」是如何進行比對評分的? - 林暉的回答 - 知乎去看,林暉先生解釋的很細致。
由于“我要說口令”小程序本身的功能要比英語流利說更為簡單一些,不需要進行特殊模型訓練,可以借助一些云計算服務商提供的 API 來實現(xiàn)功能。這里,我們拿“阿里云 ET 智能語音交互”服務 來舉例。
此處***我個人針對“我要說口令”小程序的分析,不**其官方架構。
小程序在手機上進行錄音,然后將錄音上傳至開發(fā)者的服務器,服務器上的后臺程序再將聲音信號通過 API 傳遞給 阿里云 ET 智能語音交互,并調用其中的 智能語音識別接口,接口對語音信號進行處理后,返回識別的文字,比如在剛剛那個紅包中,識別出來的文字是“四十是四十是四是屎拾”。開發(fā)者的服務器在受到服務器傳回的文字后,和發(fā)紅包的人設置的文字對比,看看兩個文字是否相同。如果文字相同,就說明讀對了,用戶就可以拿到紅包;如果文字不同,就要告訴用戶“再接再勵”了。
當然,實際上在對比的標準中可能不會這么簡單,因為在這種情況下,聲學模型和語言模型識別出來的文字可能會非常奇葩,用戶能夠匹配上設置的文字的可能性就會非常小,這時,程序員可能就會在這方面設置一個“冗余度”,如果內容中有80%的文字是對的上,就能拿到紅包。
想到這里,我不禁悲從中來,由于“聲學模型”和“語言模型”的性能,計算我讀的再好,可能也無法被很完美的識別出來。特別是這種幾乎是無序的內容,語言模型根本無法很好的處理,我總是搶不到紅包也是正常的了。以我的運氣,這輩子怕是都搶不到語音紅包了,我還是去群里搶普通運氣紅包吧!
不過,雖然我不能搶紅包,但是我可以去做一個搶紅包的小程序!有了“阿里云 ET 智能語音交互”,無需自主建立語音識別的系統(tǒng),輕松實現(xiàn)語音識別!
轉載自云棲社區(qū)
作者:西秦說云
蘇州憶信捷信息技術有限公司為客戶提供軟件開發(fā)、app開發(fā)、微信開發(fā)等定制化軟件服務。網站: www.yixinjie.cc 聯(lián)系電話:0512-86660338 聯(lián)系地址:蘇州市工業(yè)園區(qū)仁愛路150號 南大研究生院A223/A327
真誠歡迎大家前來咨詢,請撥打我們的服務熱線,謝謝,謝謝您的瀏覽。