So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung

Phùng ThThu Hin Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 33 - 38  
SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHN ĐẶC TRƯNG ÂM THANH:  
ĐƯỜNG BAO PH(MFCC) VÀ CAO ĐỘ PITCH TRONG VIC  
TÌM KIM ÂM NHC THEO NI DUNG  
Phùng ThThu Hin1*, Đoàn Xuân Ngc2, Phùng Trung Nghĩa3  
1Trường Đại hc Kthut Công nghip - ĐH Thái Nguyên  
2Cc thuế tnh Thái Nguyên  
3Trường Đại hc CNTT&TT - ĐH Thái Nguyên  
TÓM TT  
Trong cách tiếp cn truyn thng, các vector đặc trưng ca tín hiu âm thanh được xây dng tcác  
đặc trưng vt lý ca âm thanh như độ to, độ cao, năng lượng, phtn s,… Có rt nhiu phương  
pháp trích chn đặc trưng âm thanh đã và đang được nghiên cu để áp dng vào bài toán tìm kiếm  
âm nhc theo ni dung. Tuy nhiên hai phương pháp phbiến nht và được đánh giá cao là phương  
pháp sdng đường bao ph(MFCC) và phương pháp sdng cao độ (F0).  
Bài báo này nghiên cu vhai phương pháp này đồng thi so sánh đánh giá hiu quca tng  
phương pháp.  
Tkhóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW.  
ĐẶT VN ĐỀ*  
bao ph(MFCC), cui cùng là đưa ra mt số  
kết quthc nghim để so sánh hiu quca  
hai phương pháp.  
Hin nay, có rt nhiu nghiên cu vvn đề  
trích chn đặc trưng âm thanh trong bài toán  
CƠ SLÝ THUYT  
Sdng đặc trưng cao độ  
Cao độ Pitch  
tìm kiếm âm nhc theo ni dung.  
S.Blackburn và D.DeRoure [4] đã sdng kỹ  
thut hiu chnh cao độ (F0) để xác định giai  
điu chính ca đon nhc. Trong nghiên cu  
ca mình, S.Blackburn và D.DeRoure đã so  
sánh tính toán độ tương tca bài hát bng  
kthut so khp xâu. Trong khi đó, Mc Nab,  
Smith, Witten, Henderson và Cunningham [5]  
đã sdng phương thc tính toán giai điu  
bng cách ước lượng cao độ Pitch để so sánh  
gia các bn phiên âm ca mi bài hát.  
Không khí đi qua thanh qun làm thanh qun  
rung lên. Srung động này vi mt tlnào  
đó cũng được gi là tn scơ bn – f0 . Tn  
scơ bn phthuc vào kích cvà áp lc ca  
thanh qun. Tn scơ bn liên quan đến âm  
thanh vcao độ và nó có thể được ước lượng  
chính xác ttín hiu âm thanh.  
Độ cao hay độ trm bng ca âm thanh chính  
là tn ssóng cơ hc ca âm thanh. Âm thanh  
nào cũng phát ra mt độ cao nht định. Độ  
cao ca âm thanh phthuc vào tn sdao  
động. Đối vi tiếng nói, tn sdao động ca  
dây thanh quy định độ cao ging nói ca con  
người. Mi người có mt cao độ ging nói  
khác nhau, độ cao ca ngii thường cao hơn  
nam gii và độ cao ca trem thường cao  
hơn ca người ln.  
Tuy nhiên, theo mt nghiên cu ca Beth  
Logan [3] thì cu trúc âm thanh ca âm nhc  
là quan trng. Vì vy cn phi có mt hệ  
thng nhn biết độ tương tâm thanh theo  
cách gn ging như hthng nghe ca con  
người, và hthng thính giác ca con người  
ddàng thu và nhn dng các nhóm âm thanh  
hơn là tng nt nhc hay âm riêng l.  
Bài báo này trình bày phương pháp tìm kiếm  
âm nhc theo ni dung sdng theo hai đặc  
trưng, thnht là sdng đặc trưng cao độ  
(Pitch) và thhai là sdng đặc trưng đường  
Cao độ Pitch do đó là đại lượng tlnghch  
vi tn scơ bn F0.  
Pitch là thuc tính cơ bn ca tiếng nói. Tai  
người nhy cm vi sthay đổi tn scơ bn  
*Tel: 0986060545; Email: pthientng@gmail.com  
33  
Phùng ThThu Hin Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 33 - 38  
hơn là các tham skhác ca tín hiu tiếng  
nói. Ước lượng pitch khó do sthay đổi ca  
sóng âm thanh. Sóng âm thanh thay đổi nhỏ  
gia các chu k, thi đim la chn để đo sẽ  
nh hưởng ti chu kcao độ. Ước lượng cao  
độ thiếu chính xác do sxut hin ca sóng  
hài hoc hài bc ba ca cao độ tn s.  
cc đại khác mc tr162, cho thy mt sự  
kết hp tt khi dch chuyn là hai ln chu kỳ  
cao độ. Vì vy, để ước lượng cao độ pitch,  
ca sâm thanh nên cha ít nht hai chu kỳ  
cao độ (N >2/Fo).  
Ước lượng Cepstral Pitch  
Khi mt tín hiu tun hoàn vi tn scơ bn  
Fo cha nhiu sóng hài sát nhau thì đon phổ  
tương ng thhin các đường gn sóng như  
cu trúc hài ca nó. Cepstrum ca tín hiu này  
sthhin bng mt chóp cao ti tn s1/F0.  
Có rt nhiu thut toán và phương thc ước  
lượng cao độ. Các thut toán ước lượng pitch  
cgng để định vchu ktrong min thi  
gian ca tín hiu tiếng nói hoc min tn số  
ca tín hiu âm thanh. Các cách tính Pitch hu  
hết da vào phương pháp ttương quan hoc  
biến thca nó.  
Cepstrum được định nghĩa là mt biến đổi  
Fourier ri rc ngược vcường độ vi tín  
hiu vào s(n).  
Ước lượng Pitch bng phương pháp tự  
tương quan  
Cepstrum được biu din là:  
Cepstrum(d) = IFFT(log10 | FFT(s(n)) |)  
[2]  
Ước lượng Pitch thường sdng phương  
pháp ttương quan. Ý nghĩa ca stương  
quan là đo độ tương tgia 2 tín hiu, và sự  
ttương quan đo độ tương tgia chính nó  
và biến đổi theo thi gian ca chính nó.  
Phương thc ttương quan trong mt khong  
thi gian ngn ca mt đon s(m), ca mt tín  
hiu ri rc theo thi gian s(n) có thể được  
biu din là:  
d là min tn sca tín hiu cepstrum. Các hệ  
sca chstrên min thi gian là các thành  
phn tun hoàn ca tín hiu gc. Thông tin  
cao độ được trích ra bi vì mt tín hiu âm  
thanh không chcha các thành phn phcó  
tn scơ bn mà còn cha các hài. Cepstrum  
thu được có cu trúc lp li theo cường độ  
ph. Min tn sthp ca cepstrum thhin  
dng vocal tract ca hthng tiếng nói con  
người. Tn scao ca cepstrum mô tthông  
tin kích thích trong tiếng nói – pitch.  
N 1k  
r(k) =  
s(m)s(m + k)  
m=0  
[1]  
k là độ trvà N là độ dài đon, s(m) = 0 ngoài  
min (0 m N 1)  
Hình 2 thhin cường độ phvà cepstrum  
tương ng vi đon tiếng nói trong hình 1.  
Giá trti Cepstrum(0), được bỏ đi để thu  
được gii động tt hơn. Đỉnh nhô lên ti tn  
s82 biu thchu kcao độ. Tn snày  
tương ng vi tlmu ca tín hiu gc,  
8000Hz. Vì vy tn s82 thhin tn scao  
độ 8000/82 = 97.2 Hz.  
.
Cu trúc quan trng trong min tn số  
frequency thp, t1 ti 16 miêu tthông tin  
vocal tract.  
Hình 1: Dng sóng và ttương quan trên min  
thi gian ca mt đon tiếng nói ngn  
Vi âm hu thanh, phép phân tích Cepstral  
ca mt đon tiếng nói ngn sto ra mt  
đỉnh ca chu kcao độ, nhưng đối vi nhng  
âm vô thanh thì không. Phép phân tích  
Cepstral có thể được sdng cho đon âm  
thanh là hu thanh hay vô thanh để xác định  
chu kcao độ, 1/F0 nếu là đon hu thanh.  
Hình 1 thhin mt đon âm thanh ngn và  
tính ttương quan ca đon đó. Chu kcao  
độ được theo dõi trên khong 80 mu. Đỉnh  
nhô lên trong sóng ttương quan biu thị  
điu này. Giá trcc đại để xut hin quá  
trình ttương quan là mc tr0. Mt giá trị  
34  
Phùng ThThu Hin Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 33 - 38  
Mô phng li quá trình to âm ca cơ quan  
phát âm.  
Cường độ log phca hai tín hiu s1 và s2 là  
sthp tuyến tính ca cường độ phlog  
như được thhin trong biu thc 3:  
log10(|DFT[s1*s2](k)|) = log10(|s1(k)|) +log10(|s2(k)|) [3]  
Gisrng S1 và S2 là nhng phn tách ri  
ca phvà quan sát cường độ log phca 2  
tín hiu chp S1 và S2 trên, DFT có thể  
được tính toán để thu được smô tcác tn  
sriêng bit theo log10(|s1(k)|) và  
log10(|s2(k)|). Tín hiu chuyn đổi được miêu  
tả  
trong  
min  
tn  
số  
vì  
vy  
Hình 2: Cường độ Log ca DFT và tn số  
Cepstrum ca đon tiếng nói trong hình 1  
log10(|DFT[s1*s2](k)|) được chuyn đổi sang  
min tn sdubbed, quá trình chuyn đổi này  
được gi là phân tích cepstral và phthu  
được được gi là cepstrum.  
Sdng đặc trưng đường bao phMFCC  
Tn scm thcó nghĩa  
Tai ca con người nhn biết được nhng âm  
thanh có tn sthp (<1kHz) tt hơn nhng  
âm thanh có tn scao. Vì vy điu quan  
trng là cn làm ni bt lên nhng âm thanh  
có tn sthp hơn là tn scao.  
Xlý Cepstral theo thang đo tn sMel  
Các đặc trưng ca Mel Cepstral rt thành  
công trong các ng dng xlý tiếng nói và  
phc hi âm nhc vi độ chính xác cao. Các  
đặc trưng này to suyn chuyn ca cường  
độ phca nhng đon tín hiu âm thanh, vì  
vy nó là công cmnh khi có nhng thay  
đổi nhtrong giai điu hoc kiu phi nhc.  
MFCC có nhiu đặc trưng vượt tri khi sử  
dng để nhn dng tiếng nói theo thi gian.  
Mi bước ca quá trình to các đặc trưng  
MFCC được thc hin bng hthng cm  
thâm thanh ca con người. Tc là nhng gì  
không liên quan có thbỏ đi khi cơ sdữ  
liu gc da trên quá trình cm thâm thanh  
dng sóng ca con người, và tiếp theo là yêu  
cu gim kích thước dliu và tăng tc độ  
tính toán.  
Di thông ca tín hiu tiếng nói là khong  
10kHz. Không có thành phn tn snào tn  
ti dưới 50kHz. Tn stiếng nói là dưới  
3kHz, cao hơn các thành phn tn schính  
liên quan đến người nói, âm nhc, dng câm  
thanh hoc hiu ng. Formants cũng là thông  
tin quan trng. Tn sformants ca âm hu  
thanh được tìm thy dưới 5kHz trong khi ca  
âm vô thanh biến mt.  
Hình 3: Cường độ âm hu thanh và vô thanh  
A: Cường độ ca tín hiu âm vô thanh  
B: Cường độ ca tín hiu âm hu thanh  
Phép phân tích Cepstral  
Quá trình lc theo thang Mel Cepstral:  
Theo Beth Logan, MFCC gm 5 bước:  
1. Chia tín hiu thành các khung  
2. Vi mi khung, ta thu được biên độ ph.  
3. Ly log ca biên độ  
Cepstral là mt phương pháp để trích chn  
đặc trưng âm thanh. Trích chn tham số đặc  
trưng âm thanh da trên hai cơ chế:  
4. Chuyn đổi sang thang Mel  
Mô phng li quá trình cm nhn âm thanh  
ca tai người.  
5. Thc hin biến đổi Cosine ri rc.  
35  
Phùng ThThu Hin Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 33 - 38  
Mt phương pháp để chuyn đổi sang thang  
mel là sdng băng lc. Khong cách ca  
băng lc được định nghĩa bi mt hng stn  
smel theo thi gian. Băng lc này được áp  
dng trong min tn s, nó có thxem như  
các đim thu được ca blc chính. Vi các  
khung nhtt nht là sdng các blc dng  
tam giác hoc thm chí hình chnht vì độ  
phân gii là quá thp trong min tn sthp.  
Hình 4: Quá trình to các đặc tính MFCC  
Quan sát quá trình trên ta thy, âm thanh  
được chia thành nhng khung có độ dài cố  
định. Mc đích là để ly mu nhng đon tín  
hiu nh(theo lý thuyết là n định). Hàm ca  
sbỏ đi nhng hiu ng phvà vector đặc  
trưng cepstral được thc hin trên mi khung  
ca s. Biến đổi Fourier ri rc ca mi  
khung được tính toán và ly logarithm biên  
độ ph. Thông tin vpha bbqua do biên độ  
phlà quan trng hơn pha. Thc hin ly  
logarithm biên độ phdo âm lượng ca tín  
hiu là xp xlogarith. Tiếp theo biến đổi phổ  
theo thang Mel. Tkết qunày, trong vector  
Mel – spectral ca các thành phn tương quan  
cao, bước cui cùng là thc hin biến đổi  
cosine ri rc để tng hp vector phMel để  
tương quan li các thành phn này  
Hình 5: Băng lc khong cách theo tn sMel  
Mi blc trong băng lc được nhân vi phổ  
tín hiu vì vy chcó mt giá trị đơn ca  
cường độ trên blc được trli. Điu này có  
thể đạt được qua các tính toán ca ma trn  
đơn. Kết qulà tng ca biên độ trong di lc  
và vì vy làm gim độ chính xác ti mc tai  
ca con người.  
Độ lch tn sMel  
Độ lch tn sMel làm nhn phvà làm ni  
lên các tn scm thcó nghĩa. Biến đổi  
Fourier lên tín hiu qua blc thông di để  
làm đơn gin phmà không làm mt dliu.  
Điu này được thc hin bng cách tp hp  
các thành phn phthành mt di tn s. Phổ  
được làm đơn gin hóa do sdng mt giàn  
blc để tách phthành các kênh. Các blc  
được đặt cách đều nhau trên thang Mel và ly  
logarit trên thang tn s, các kênh có tn số  
thp là không gian tuyến tính trong khi các  
kênh có tn scao là không gian logarit.  
Hình 6: Phsau khi lc theo thang Mel  
Quá trình độ lch tn smel được thc hin  
theo ba bước sau:  
Tai người không cm nhn sthay đổi tn số  
ca tiếng nói tuyến tính mà theo thang mel.  
Thang tn sMel tuyến tính tn sdưới  
1kHz và logarit tn scao hơn 1kHz. Ta  
chn tn s1kHz, 40 dB trên ngưỡng nghe  
1000 Mel. Do đó công thc gn đúng biu  
din quan htn số ở thang mel và thang  
tuyến tính như sau:  
1. Cố định vùng giá trdưới mi blc và  
đôi khi đưa thang v1. Đặt M = sbăng lc  
yêu cu  
2. Phân bố đều trên thang tn sMel  
ω
i's  
trên thang  
3. Chuyn đổi tHz sang  
tuyến tính. Mi quan hgia mel và frq được  
cho bi công thc:  
(5)  
(4)  
m=ln(1+f/700)*1000/ln(1+1000/700)  
36  
Phùng ThThu Hin Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 33 - 38  
KT QUTHC NGHIM  
Sdng F0  
Ging như Beth Logan [8], phân lp bng  
cách phân hscepstral thành 16 cm theo  
thut toán K-means chun. Sdng khong  
cách Euclidean để tính toán độ tương t.  
Chun bdliu  
Dliu bao gm 20 bài hát thiếu nhi ni tiếng  
childSong4public/QBSH-corpus/.  
Kết quthc nghim và đánh giá  
Trong c2 chương trình thnghim, kết quả  
nhn dng đúng cui cùng sau 20 ln thử  
nghim đều là 100%. Kết qunày cao hơn kết  
quả đã công btrong [8] và [4] dù dùng cùng  
thut toán. Lý do có thdo chương trình  
demo mi thnghim trên bcơ sdliu  
rt nh. Hơn na độ dài âm thanh đầu vào  
(trích 1 đon tfile âm thanh cn tìm kiếm)  
đủ ln (so vi âm thanh tìm kiếm) trong  
chương trình thnghim 1, độ dài âm thanh  
đầu vào và âm thanh cn tìm kiếm đều là cả  
bài hát trong chương trình thnghim 2. Tỷ  
lnhn dng sgim xung khi dùng cơ sở  
dliu ln hơn (đặc bit khi trong cơ sdữ  
liu có các bài hát có nhng phn tương tự  
nhau), tlnhn dng và tìm kiếm đúng cũng  
sgim xung khi độ dài mu âm thanh đầu  
vào là nh.  
Trong các cu trúc file âm thanh thì MIDI là  
định dng file đơn gin, kích cnhgn  
nhưng vn biu din được giai điu âm  
nhc.Trong bước hun luyn, chương trình sử  
dng 20 bn nhc định dng MIDI. Khi tìm  
kiếm chương trình thnghim trên 20 file âm  
thanh PCM Wave tn sly mu 8 KHz, mã  
hóa 8 bít / mu, thu tcác điu ngân nga  
không li (humming) hoc các đon hát  
không nhc (singing) vi giai điu tương ng  
vi 45 bn nhc MIDI đã hun luyn.  
Các tham sthc nghim  
Cao độ Pitch được tính theo phương pháp tự  
tương quan ACF (AutoCorrelation Function)  
vi các tham s: kích ckhung là 256 ms,  
không chng lp. Sau khi tính Pitch bng hàm  
ACF, pitch được làm trơn bng lc trung v.  
Phương pháp phân lp sdng thut toán thi  
gian động DTW tiến hành so sánh chui Pitch  
đầu vào cn tìm kiếm tính tfile Wave vi ln  
lượt các chui Pitch ca các file MIDI trong cơ  
sdliu. Thut toán thi gian động cho phép  
so sánh 2 chui Pitch có độ dài khác nhau vi  
sai snhnht. Độ tương tca 2 chui pitch  
sau đó được tính toán bng khong cách Euclid  
để tìm ra chui phù hp nht.  
Vmt thi gian, chương trình 1 thc hin  
hun luyn và sau đó tìm kiếm hết ~ 4 s vi  
mt bài hát, chương trình 2 thc hin tìm  
kiếm cho mi file Wave trong khong 0.2 s  
vi điu kin đã hun luyn trước.  
Sdng MFCC  
Chun bdliu  
Vn sdng dliu trên nhưng được lưu ở  
định dng PCM wave, tn sly mu 44  
KHz, mã hóa 16 bit trên mt mu. Mi bài  
hát được trích ra mt đon ngn < 5 s sdng  
làm mu tìm kiếm.  
Hình 7: Kết quchy chương trình  
Các tham sthc nghim  
Vi thnghim trên chai phương pháp đều  
cho kết qutt. Tuy nhiên, phương pháp  
MFCC tt hơn khi dliu được trích ra từ  
chính bài hát ca tác gi. Còn phương pháp  
cao độ pitch có thnhn din được khi đon  
dliu tìm kiếm có thlà mt tiếng sáo, tiếng  
nhc hoc giai điu ca bài hát.  
Đặc trưng MFCC được cài đặt vi các tham  
ssau : Kích ckhung là 512 ms, không sử  
dng khung chng lp, sblc trong dãy  
băng lc Mel là 20, shsCeptral là 12,  
không sdng các hsố đạo hàm Delta, kết  
hp các hsMFCC vi 1 hsnăng lượng.  
37  
Phùng ThThu Hin Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 33 - 38  
ni dung”, Lun văn thc sCông nghthông tin,  
Đại hc Thái Nguyên, 12/2009.  
Do đó, vi các ng dng yêu cu độ chính xác  
cao mà dliu nhhơn ta có tháp dng  
phương pháp MFCC rt tt còn trong trường  
hp khi bdliu ln, mà đon dliu tìm  
kiếm có thchlà mt đon là giai điu ca bài  
hát ta có tháp dng phương pháp cao độ Pitch.  
[2]. Phùng ThThu Hin, Thái Quang Vinh,  
Phùng Trung Nghĩa, Lê Tun Anh (2009), “Tìm  
kiếm âm nhc theo ni dung sdng đặc trưng  
tn scơ bn F0 và gii thut thi gian động  
DTW”, Tp chí Khoa hc & Công nghISSN,  
1859 – 2171, T55 – 59.  
KT LUN  
[3]. Beth Logan and Ariel Salomon (2002), “A  
Music Similarity Function Based on Signal  
Analysis”, Cambridge Research Laboratory.  
[4]. S.Blackburn and D. De Roure (1998), “A tool  
for content based navigation of music”, in ACM  
Multimedia.  
[5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson,  
and S.Cunningham (1996), “Towards the digital  
music library: Tune retrieval from acoustic input,”  
in Digital Libraries, pp.11-18  
Để kết quthc nghim chính xác hơn, cn  
xây dng mt cơ sdliu âm nhc đủ ln  
để thnghim. Từ đó sẽ đánh giá được độ  
chính xác, hiu quca các phương pháp tìm  
kiếm và có thể đề xut các phương pháp ci  
tiến thao tác trích đặc trưng và phân lp ca  
hthng tìm kiếm.  
Hướng nghiên cu tiếp theo slà tìm hiu sâu  
hơn vcác phương pháp phân lp dliu như  
mng Neural, gii thut di truyn GA, mô  
hình Markov n HMM,…  
[6]. Beth Logan and Stephen Chu (2000), “Music  
Summarization Using Key Phrases”, Cambridge  
Research Laboratories.  
TÀI LIU THAM KHO  
[7]. J.T. Foote (1997), “Content-based retrieval  
of Music and Audio,” in SPIE, p.p 138- 147  
[1]. Phùng ThThu Hin, “Trích chn đặc trưng  
âm thanh trong bài toán tìm kiếm âm nhc theo  
SUMMARY  
COMPARING TWO METHOD: SPECTRAL ENVELOPE FEATURE (MFCC)  
AND PITCH IN CONTEND – BASED MUSIC RETRIEVAL  
Phung Thi Thu Hien1*, Doan Xuan Ngoc2, Phung Trung Nghia3  
1College of Technology – TNU  
2Department of Tax – Thai Nguyen province  
3College of Information Communication and Technology  
In state of the art approaches, feature vectors of music signal are built based on their physical  
characteristics as volume, energy, and spectrum. There are many methods to extract feature in  
contend – based music retrieval. Spectral Envelope Feature and Pitch method are Two popular  
methods. This paper presens and compares these methods.  
Key words: Feature Vector, Mel Cepstral, K-means, F0, pitch, DTW.  
Phn bin khoa hc: TS. Vũ Vit Vũ – Trường Đại hc Kthut Công nghip – ĐH Thái Nguyên  
*
Tel: 0986060545; Email: pthientng@gmail.com  
38  
pdf 6 trang baolam 09/05/2022 4820
Bạn đang xem tài liệu "So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfso_sanh_hai_phuong_phap_trich_chon_dac_trung_am_thanh_duong.pdf