我們常常會利用拷貝、網路線上傳輸等方式,來獲得我們想要的資料,但是,要如何在獲得資料的同時,「保護作者的智慧財產權」卻是一個不能忽視的大問題。很多的研究機構不斷地討論和研發解決的方案,其中一個現在非常流行的方法就是「浮水印法」(Watermarking)。Watermarking就是在所要保護的作品中嵌入一些資訊,來保護智慧財產權,當然,大家可能會覺得奇怪:如果在作品中加入了某些東西,例如在某張圖片中加入了一個符號,豈不是會破壞這個作品了嗎?這個問題,也就是Watermarking這個技術的困難之處了,我們所做出來的Watermark必須符合下列要求:
a.
|
聽不見、看不見:Watermark不能影響原來信號的品質。
|
b.
|
具有強韌性:不可以被非法者易於破壞Watermark。
|
c.
|
Watermark必須加在資料裡面,而不能加在檔頭(header)中,防止易於除去Watermark。
|
d.
|
必須可支援多種watermarking,才能有廣大的適用性。
|
e.
|
必須具有週期性,才能易於偵測、辨別。
|
如果有兩個聲音,一個比較大聲,另一個雖然聽得見,但是比較小聲,則大聲的聲音會使小聲的聲音聽不見,這種現象我們稱為「Masking Effect」,比較大聲的聲音稱為masker,而比較小聲的聲音稱為maskee。
Masking effect是由masker和maskee在頻率上和時間上的特性來決定,分為「Frequency masking」和「Temporal masking」。Frequency masking發生在頻域上,當兩個幾乎同時發生的信號在頻率軸上很接近,能量比較強的信號會使比較若的信號聽不見,如果由整個頻域來看,可以繪出一條縱軸為sound pressure level(SPL),橫軸為frequency的「masking threshold」,在這條線之上的聲音都聽的見,之下的全都被mask了,我們會發現,愈高頻的信號欲容易被mask。Temporal masking又分為pre-masking和post-masking,pre-masking effect會使能量較弱的信號在較強的信號發生之前聽不見,post-masking會使能量較弱的信號在較強的信號結束之後聽不見,通常在能量較強的信號發生之前,pre-masking差不多維持5-20msec,在能量較強的信號發生之後,post-masking差不多維持50-200msec。
任何信號都可以波的形式表示,語音信號也不例外。談到波形,不免要談到振幅、週期等等。而像語音訊號的波形,我們可以在不同的時間區段上找到不同的週期,造成這種現象的主要原因,乃是因為語音訊號本身是由很多具有不同週期的訊號所組成。這種週期隨時間變化的訊號,我們稱為非固定式的訊號。而固定式如sin、cos、…等。然而對非固定式的訊號來說,要辨識它們並不容易,以語音訊號來說,由於在不同的時間區段有不同的週期與振幅大小,因此一段非固定式的訊號所具有的週期與振幅等參數數目,都比固定式的訊號來得多。雖然語音是非固定式的訊號。這樣一來,我們就可以用處理固定式的訊號的方式來對不固定式的訊號來作處理。再語音處理上,每一時間區段是一個短時距(short time)或被稱為一個音框(frame)。語音訊號還有一項重要的特性:在不同時間,雖然說的是同一句話或一個音,但其波形卻不儘相同,也可以說語音是一種隨時間而變的動態性訊號,做語音辨識就是要從這些動態的訊號中,找出規律性,一旦找到規律性之後,訊號在怎麼隨時間變化,大抵都能指出它們的特性所在,進而把它們辨識出來,這種規律性在語音辨識上稱為特徵參數,也就是能夠代表訊號特性的參數。語音辨識的基本原理就是以這些特徵參數做基礎。
|