數位信號處理發展研究室(EN402)管理者 ->->->夏英峰老師

■研究室簡介

一、簡介

 

  DSP(Digital Signal Processing),就其字面意義為數位信號處理。因為數位信號的特性與數位電路技術的進步,許多原本使用類比信號的系統逐漸改採數位信號系統,如音響、電視等。DSP包含的兩大主要領域為影像處理(Image Processing)與聲音處理(Audio Processing)。影像處理包含醫學影像處理、影像識別、影像壓縮、影像加密等。聲音處理包含音樂產生、語音產生、語音辨識、語音加密等。現在,可以在各項消費性電子產品上發現很多DSP的應用。例如:印表機、數位相機、數位攝影機、語音輸入等。DSP可以說是應用極廣的一種技術。當然DSP可應用在各個研究領域及各行各業上,但本特色發展研究室將著重在電腦軟硬體相關研究領域的DSP研究上。研究方向有三:

(1)

DSP演算法的創新研究

(2)

DSP演算法的改進研究

(3)

DSP實際應用研究。

 

 

二、成立目的

 

1.

促進特色發展研究室成員老師間的合作研究,以帶動研究風氣。

2.

吸收、培訓優秀學生,以提昇建國科技大學的研究水準。

3.

藉最佳化應用研究並透過產學合作以協助中小企業提昇技術水準。

 

教授研究群

 

管理老師

 

副教授 ─ 夏英峰

 

 

其他教授

 

副教授 -郭坤煌

 

副教授 - 陳源彬

 

助理教授 -馬立山

 

助理教授 -李樹鴻

 

研究室成員

『大學部專題生』:

 

太陽能遙控自走車

 

四技四甲:賴智宇、許紘源、張譽懷、吳健銘、黃靖智

 

投影式斑馬線紅綠燈

 

四技四乙:黃宇呈、許志豪、施政宏

 

研究發展及成果

一、相關研究領域

 

醫學影像處理

 

  目前在大型醫院所使用之PACS(Picture Archiving and Communication System)可將MRI、CT、x-ray…等各種醫學影像整合於單一的網路系統中以利儲存及傳送。未來若所有醫院都採用此種系統,則病人的病歷在各醫院間可隨時互通,避免同一種檢驗重複多次的醫療資源浪費,同時不需沖洗x光底片,大大節省醫療成本及存放底片所佔之空間,管理上也更有效率。而不再使用顯影劑(developing powder)等化學藥品,在環保上也有所貢獻。因此,未來各醫院採用數位影像已是必然的趨勢。
  依照傳統的方式,醫生是根據患者的下肢x光片判斷其是否為O形腿(bowlegs)。將兩張底片以膠帶粘合,接著在大腿骨(femur)上端及下端寬度較平均之處各取一個中點,將此兩點連成一條近似與大腿骨平行的直線,小腿骨(shin)上也是以相同的方式得到與小腿近似平行的直線,最後以量角器求得兩條直線的夾角。在照射x光時需在腿邊放置一把尺,藉由尺上的刻度計算腿長。以此種方式測量數據往往要花費許多時間,x光片沖洗費時並造成污染,而且x光片尺寸太大造成操作時極不方便。最大的問題在於不同醫師可能選取不同的點,而造成同一張x光片卻有不同之判讀結果。甚至同一位醫師在不同時間對相同之x光片所測得之角度也可能有些微之差異,這樣的結果顯然不夠客觀。
  使用PACS可改善傳統方式的許多缺點,不再需要人工組合x光片,照射x光時不需要放尺,影像之許多特性(大小、亮度、對比…等等)可在螢幕上調整,然而仍舊需要醫師採用人工操作之方式在螢幕上選取某些標記點後才能獲得所需要之數據。以目前所使用之PACS而言,可以任意在螢幕上點選三點求夾角,也可以點選四點求夾角,這些動作都需由醫師點選,也因此準確性會隨醫師主觀而有差異,這是系統尚待改進之處。某些論文提出全自動之方式針對特定區域(如手掌、肋骨),或是可用於任意區域選取初始值,最後可以自動收斂到物體輪廓之半自動方式作影像分割及分析,目的都是在將人為操作的變因降至最低,以求影像分析結果之客觀及正確性。
  視覺的判斷通常是很主觀的,因為每個醫師讀X光片都可能得到不同的結果,甚至同一張X光片由相同的醫師在不同時間判讀也會有些微的差異。由實驗結果可以看出,測量一般正常人的腿骨角度不會因為使用者不同而有很大的變化。但是對於腿骨嚴重彎曲的病患而言,不同使用者就很可能測得相差很多的角度值。用人工組合X光片及測量數據既浪費時間,所得到的數據也會隨醫師的個人主觀而不盡相同。本系統可以改善傳統方式的缺點,不論是傳統X光片或PACS影像都可以準確的求出所需的腿骨邊界。由於是全自動模式下所得到的數據,不需經由使用者選取標記點,同一份影像在不同醫院所得到之數據完全相同,不會因為醫師不同而有不同之診斷結果。且系統的影像處理速度非常快,並不需要非常高階之電腦即可達到即時處理之速度。病患照完x光片後配合PACS將影像傳送到診療室的電腦,醫師在病患還沒回到診療室之前即可由電腦螢幕上即時得到診斷所需的正確數據,大大縮短病人看診時間。在臨床上,可以提供快速、正確、且客觀之數據以協助診斷,醫師及病人雙方都能享受到此系統提供的便利性。

 

 

影像分割

 

影像分割是目前許多研究領域的基礎題目,其方法可以分為兩大類:半自動 (semi-automatic) 分割與全自動 (Fully-automatic) 分割。在醫學影像 (medical image)、數位視訊(digital video) 以及許多影像處理的相關應用中都必須使用到影像分割的技術,其目的是從圖片中找出特定的物件或區域以利下一步的辨識或壓縮。在 video 的壓縮技術中,從 MPEG 4 以後的標準是以 object-based  的方式,將畫面中的不同物件分割出來後再分別處理,以求達到更高的壓縮率。因此自動分割物件是最基本且重要的步驟。影像分割的方法有許多,最常被大家使用的有:

(A)

Active contour:

 

需要由使用者選取初始輪廓,大部分應用於半自動分割。最廣為使用的是snake scheme。由使用者選擇一個初始的輪廓,接著使用最佳化的方式尋找局部的最小能量(local energy minima)以求得正確的輪廓。Snake的缺點是必須先選取初始的輪廓,操作時間長,而且初始輪廓的選取會隨著圖形愈複雜而困難度愈高。The Live Wire on the Fly(LWOF) scheme可以由使用者在要分割物件的邊界附近以滑鼠選擇初始點,移動滑鼠時游標會自動貼近物體邊界。當自動選取的邊界點偏離正確值時,必須由使用者輔助點選正確邊界點,如此一直進行到選取完封閉輪廓。LWOF的優點是可以適用於任何圖形,而且在複雜的背景下可以由人眼輔助判斷,正確度非常高。缺點是在某些角度變化比較大的轉彎處都需要人工選點,使得選擇的點數以及操作時間都會增加。Snake與LWOF共同的缺點就是,若要分割出愈多個物件,則選擇的初始點就愈多,操作時間也愈長。

(B)

Watershed:

 

在watershed的方法中,影像被當成是地形的表面(topographic surface),每個像素(pixel)的灰度值表示它的高度。匯水盆代表被分割影像的區域。有兩種不同的watershed方式,分別是rain falling 和 water immersion。Rain falling 的理論非常直接但是計算量大, water immersion則是理論比較複雜但是可以很快的分割出物件。Watershed的優點是一次就能分割出多個物件,並且能確保這些物件都具有封閉輪廓。缺點是不同種類的影像必須調整threshold,否則經常會有物件 over-segmented的情形。而且threshold稍微變動可能造成分割結果的極大改變。

 

 

數位影音安全

 

我們常常會利用拷貝、網路線上傳輸等方式,來獲得我們想要的資料,但是,要如何在獲得資料的同時,「保護作者的智慧財產權」卻是一個不能忽視的大問題。很多的研究機構不斷地討論和研發解決的方案,其中一個現在非常流行的方法就是「浮水印法」(Watermarking)。Watermarking就是在所要保護的作品中嵌入一些資訊,來保護智慧財產權,當然,大家可能會覺得奇怪:如果在作品中加入了某些東西,例如在某張圖片中加入了一個符號,豈不是會破壞這個作品了嗎?這個問題,也就是Watermarking這個技術的困難之處了,我們所做出來的Watermark必須符合下列要求:

a.

聽不見、看不見:Watermark不能影響原來信號的品質。

b.

具有強韌性:不可以被非法者易於破壞Watermark

c.

Watermark必須加在資料裡面,而不能加在檔頭(header)中,防止易於除去Watermark。

d.

必須可支援多種watermarking,才能有廣大的適用性。

e.

必須具有週期性,才能易於偵測、辨別。

  

如果有兩個聲音,一個比較大聲,另一個雖然聽得見,但是比較小聲,則大聲的聲音會使小聲的聲音聽不見,這種現象我們稱為「Masking Effect」,比較大聲的聲音稱為masker,而比較小聲的聲音稱為maskee。
  Masking effect是由masker和maskee在頻率上和時間上的特性來決定,分為「Frequency masking」和「Temporal masking」。Frequency masking發生在頻域上,當兩個幾乎同時發生的信號在頻率軸上很接近,能量比較強的信號會使比較若的信號聽不見,如果由整個頻域來看,可以繪出一條縱軸為sound pressure level(SPL),橫軸為frequency的「masking threshold」,在這條線之上的聲音都聽的見,之下的全都被mask了,我們會發現,愈高頻的信號欲容易被mask。Temporal masking又分為pre-masking和post-masking,pre-masking effect會使能量較弱的信號在較強的信號發生之前聽不見,post-masking會使能量較弱的信號在較強的信號結束之後聽不見,通常在能量較強的信號發生之前,pre-masking差不多維持5-20msec,在能量較強的信號發生之後,post-masking差不多維持50-200msec。
  任何信號都可以波的形式表示,語音信號也不例外。談到波形,不免要談到振幅、週期等等。而像語音訊號的波形,我們可以在不同的時間區段上找到不同的週期,造成這種現象的主要原因,乃是因為語音訊號本身是由很多具有不同週期的訊號所組成。這種週期隨時間變化的訊號,我們稱為非固定式的訊號。而固定式如sin、cos、…等。然而對非固定式的訊號來說,要辨識它們並不容易,以語音訊號來說,由於在不同的時間區段有不同的週期與振幅大小,因此一段非固定式的訊號所具有的週期與振幅等參數數目,都比固定式的訊號來得多。雖然語音是非固定式的訊號。這樣一來,我們就可以用處理固定式的訊號的方式來對不固定式的訊號來作處理。再語音處理上,每一時間區段是一個短時距(short time)或被稱為一個音框(frame)。語音訊號還有一項重要的特性:在不同時間,雖然說的是同一句話或一個音,但其波形卻不儘相同,也可以說語音是一種隨時間而變的動態性訊號,做語音辨識就是要從這些動態的訊號中,找出規律性,一旦找到規律性之後,訊號在怎麼隨時間變化,大抵都能指出它們的特性所在,進而把它們辨識出來,這種規律性在語音辨識上稱為特徵參數,也就是能夠代表訊號特性的參數。語音辨識的基本原理就是以這些特徵參數做基礎。

 

設備財產

數位信號處理發展研究室現有設備

 

 1.  硬體:

(1)

已有規畫研究室位置(原系教師辦公室)

(2)

個人電腦 8

(3)

雷射印表機 1

(4)

集線器(HUB) 1

(5)

相關網路拉線

在研究室成立之初,擬用系上及老師的相關設備,等到申請到研究計畫後再進行添購

 

 2.  軟體:

(1)

C++

(2)

Matlab 6.5 版  1

 

 

目前所需軟體,系上或學校已有採購,不需重覆投資