語譜圖是二戰(zhàn)時期發(fā)明的,語譜圖就是語音頻譜圖,一般是通過處理接收的時域信號得到頻譜圖,因此只要有足夠時間長度的時域信號就可。專業(yè)點講,那是頻譜分析視圖,如果針對語音數(shù)據(jù)的話,叫語譜圖。語譜圖的橫坐標是時間,縱坐標是頻率,坐標點值為語音數(shù)據(jù)能量。由于是采用二維平面表達三維信息,所以能量值的大小是通過顏色來表示的,顏色深,表示該點的語音能量越強。

基本信息

可是為什么采用二維平面來表示三維信息呢?這個是有歷史原因的。在數(shù)字技術發(fā)展以前,人們可視化研究語音數(shù)據(jù)的方法是把數(shù)據(jù)通過頻率濾波器,然后各個頻率的數(shù)據(jù)驅動相應的類似針式打印的設備按頻率高低順序記錄在一卷紙上,信號的強弱由記錄在紙上的灰度來表示。記錄紙按照一定的速度旋轉,即相當于在不同的時間里記錄下語音數(shù)據(jù)。

語譜圖還分為窄帶語譜圖和寬帶語譜圖。

主要內容

我們可以觀察語音不同頻段的信號強度隨時間的變化情況。由于音樂信號本身頻率豐富,不太容易看出規(guī)律,我們可以觀察一下純粹的語音數(shù)據(jù)的語譜圖(附圖)。從圖中可以看到明顯的一條條橫方向的條紋,我們稱為“聲紋”,有很多應用。條紋的地方實際是顏色深的點聚集的地方,隨時間延續(xù),就延長成條紋,也就是表示語音中頻率值為該點橫坐標值的能量較強,在整個語音中所占比重大,那么相應影響人感知的效果要強烈得多。而一般語音中數(shù)據(jù)是周期性的,所以,能量強點的頻率分布是頻率周期的,即存在300Hz強點,則一般在n*300Hz點也會出現(xiàn)強點,所以我們看到的語譜圖都是條紋狀的。

盡管客觀人發(fā)聲器官的音域是有限度的,即一般人發(fā)聲最高頻率為4000Hz,樂器的音域要比人寬很多,打擊樂器的上限可以到20KHz。但是,由于我們數(shù)字分析頻率時,采用的是算法實現(xiàn)的,一般是FFT,所以其結果是由采樣率決定的,即盡管是上限為4000Hz的語音數(shù)據(jù),如果采用16Khz的采樣率來分析,則仍然可以在4000Hz以上的頻段發(fā)現(xiàn)有數(shù)據(jù)分布,則可以認為是算法誤差,非客觀事實。