交流園地

>> 返回列表

基于關鍵詞識別的黑廣播識別方法研究

今日上证指数是多少 -点 百度 www.327119.live 2019-06-20

由于無線電廣播技術自身的開放性,時常有出于不同目的用戶,在批準發射的頻率之外,擅自占據頻段進行廣播發射(俗稱黑廣播,即非法廣播)。在這之中,出于經濟目的非法廣播發射尤為明顯,其內容以售賣假冒偽劣產品居多,嚴重擾亂經濟秩序。另外,即便是一些非主觀惡意的私占頻段發射(如無線電愛好者自行搭建平臺),也會擾亂正常電子通訊的運轉,在某些情況下甚至會干擾關鍵性通訊設備(如飛機飛航通訊頻段),引發嚴重的安全隱患。因此,進行有效的黑廣播自動識別,進而便于無線電電磁頻譜管控是一項意義重大的課題。

傳統的黑廣播識別主要是基于人工收聽并識別的方法,具有成本高、效率低、操作人員疲勞易引發失誤等缺點。現有語音識別模型通常針對整句識別、語義判定而設計的,其大部分只提供線上使用功能,無法離線使用,可移植性差,且在廣播大噪聲的情況下識別成功率也很低,不適用于穩健高效地黑廣播自動識別。

針對現有技術中的上述不足,本文提供一種基于關鍵詞識別的無線電識別方法,采用的技術方案為(圖1):

一、建立聲學模型,將聲音信號轉換為音素;

二、建立語言模型,進一步選出最有可能的音素組合,輸出為文字;

三、根據轉換的文字提取關鍵詞,判斷該無線電廣播是否合法。

1

1 基于關鍵詞識別的黑廣播識別方法流程


第一步,建立聲學模型,將聲音信號轉換為音素。音素[1]phone),是語音中的最小的單位,依據音節里的發音動作來分析,一個動作構成一個音素。 音素分為元音、輔音兩大類。聲學模型基于馬爾科夫-高斯混合(HMM-GMM)模型,相較于以神經網絡為基礎的聲學模型,此類模型具有較強的可解釋性,同時也適合小樣本訓練的特點。馬爾科夫-高斯混合模型[2]同時融合了隱馬爾可夫鏈(Hidden Markov Model, HMM)和高斯混合模型[3](Gaussian Mixture Model, GMM),其中,馬爾可夫鏈用來表征系統在某一時刻的狀態,在聲學模型中即可能發聲的音節;高斯混合模型則用來建模各時刻的聲學波形,并通過各種聲學發聲波形與馬爾可夫鏈的關系推測最可能的對應發音。

具體地,對于高斯混合模型,可以用如下的表達式來表征:

2


其中x表示某一個音節;p(x)為輸出某一個音節的概率;P(m)為對應高斯概率密度函數的權值;μmσm2是對應的高斯分布的參數;m為子模型的索引,即第m個子模型;M為總共的子模型數量;N·)為多元高斯分布;I為對應數據維度的單位矩陣;P(x|m)為對于第m個模型,輸出某一個音節的概率。

而隱馬爾可夫鏈的推導公式則以以下兩個前進公式為核心:

3


式中,S表示各時刻狀態,x則表示表征聲學模型波形的隨機變量。所以,第二個公式為對各幀的特征信號進行建模的概率密度函數,即有時我們所說的發射函數(emission function。在聲學信號建模中,我們令這個函數遵從高斯混合模型,從而得到我們的HMM-GMM總體模型;而第一個公式則反映的是隱狀態之間的變化,狀態之間的轉移可以使用動態規劃(Dynamic Programming)的方法計算。

  對于模型的參數自適應調整,我們將使用最大后驗概率[4]的方法,其基礎公式為:

4


其中,P(λ)為先驗概率;P(O|λ)為似然函數,即表征數據在特定的模型設定下似然程度的度量;λ為模型相關的參數,而λMAP則是經過最大后驗概率調整后的模型相關參數。帶入相關的模型,我們可以得到具體地參數自適應調整公式:

經過更新的各高斯混合模型中的均值:

5

經過更新的模型各高斯元權重:

6


具體操作為,截取50-1003-5秒的廣播錄音,其內容需要較為清晰,并存儲為.wav格式;然后在與廣播錄音相同的路徑下,建立句子描述文件(.transcript)、錄音匹配文件(.field)和改進詞典(.dic)。其中,句子描述文件記錄了按詞組拆分的句子,需要人工加入空格斷句;錄音匹配文件記錄各句子對應的錄音文件名(如RadioRecord1);而辭典則記錄了錄音匹配文件中每個詞組的發音。在完成了上述工作后,將所有的.wav文件轉為mfc文件;而后,將原模型中的參數文件轉換為文本;最后,統計所有的音頻文檔的信息,并根據句子描述文件、錄音匹配文件和辭典分別進行匹配。在完成了上述操作后,可以使用最大后驗概率的方法對基礎模型的參數進行調整。

第二步,根據詞典及語言模型生成器建立語言模型,將樣本詞作為提取條件,提取與樣本詞相同的詞作為關鍵詞,具體步驟為:

1、建立文本文件,在文本文件的每一行中加入樣本關鍵詞;

2、通過在線語言模型生成工具對文本文件進行語言模型及詞典的生成,完成語言模型的建立;

3、通過語言模型提取所識別文字中的關鍵詞。

第三步,根據專家系統將樣本詞進行組合得到判斷該無線電廣播內容是否合法的判定條件,將關鍵詞不符合判定條件的無線電廣播作為非法廣播,將關鍵詞符合判定條件的無線電廣播作為正常廣播[5]。

本方法基于人工智能發展的成果進行綜合改進,使得無線電識別可以實現自動化,極大的節省了成本、提升了效率;本方法針對無線電廣播信號的特點,實現可定制化,能夠最大化的滿足不同需求;本方法可以離線使用,特別適合于需要保密的項目中;并且能在存在背景音樂或其他噪聲的情況下進行識別,便于應用于更廣泛的場景當中。

參考文獻

韓軍.基于DBF的漢語方言自動辨識[J].電聲技術,2017,41(Z1):120-124.

靳雙燕. 基于隱馬爾可夫模型的語音識別技術研究[D].鄭州大學,2013.

梁巖,鮑長春,夏丙寅,何玉文,周璇,李娜.基于高斯混合模型的壓縮域語音增強方法[J].電子學報,2012,40(10):2031-2038.

李婉玲,張秋菊.基于聯合最大后驗概率的語音增強算法[J].計算機系統應用,2018,27(12):163-168.

[5]  Sphinx reference manual [EB/OL]. //www.sphinxsearch.com/docs/current.html


{ganrao}