Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc

Đỗ ThLoan Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 89 - 95  
NGHIÊN CU PHƯƠNG PHÁP NHN DNG PHÂN BIT  
TING NÓI VI ÂM NHC  
Đỗ ThLoan, Lưu ThLiu, Nguyn ThHin  
Trường Đại hc Công nghthông tin và Truyn thông – ĐH Thái Nguyên  
TÓM TT  
Tự động nhn dng phân bit tiếng nói vi âm nhc là công cquan trng trong nhiu ng dng đa  
phương tin. Để nhn dng phân bit tiếng nói vi âm nhc, chúng tôi đã sdng ba đặc trưng: tn  
sut vượt đim không cao (HZCRR), tlkhung có năng lượng ngn hn thp (LSTER), độ biến  
thiên ph(SF) và thut toán sdng để hun luyn cũng như nhn dng là K-NN (K Nearest  
Neighbor). Dliu là các đon nhc gm nhiu thloi tnhc không li ti nhc có li (nhc  
Vit Nam, nhc Rock, nhc Pop, Đồng quê), các đon tiếng nói ca ging nam và nbng tiếng  
Vit. Trong bài báo này mc đích nghiên cu ban đầu ca chúng tôi chyếu là nhn dng phân  
bit hai loi âm thanh: tiếng nói và âm nhc vi kết quthu được có độ chính xác khá cao, vi  
tiếng nói có độ chính xác xp x84%, âm nhc là 92%. Trong tương lai chúng tôi mong mun phát  
trin hthng có khnăng nhn dng phân bit nhiu lp âm thanh hơn.  
Tkhóa: Phân bit, tiếng nói, âm nhc, nhc Vit Nam, tiếng Vit.  
GII THIU*  
tra tín hiu âm thanh trong khong thi gian  
đủ ngn (gia 5 và 100msec), ta có thnhn  
thy đặc đim ca nó là khá cth. Tuy nhiên  
trong thi gian dài, các đặc tính ca tín hiu  
thay đổi để phn ánh đặc đim ca chui tín  
hiu như mt bài phát biu hay mt đon  
nhc. Trong phn này, chúng tôi đưa ra mt  
snhn định vskhác bit gia tiếng nói và  
âm nhc như sau:  
Nhn dng phân bit tiếng nói vi âm nhc là  
mt phn trong hthng phân loi âm thanh  
ASC (Audio Signal Classifier) [1] hay trong  
hthng nhn dng các khung cnh âm thanh  
CASR  
(Computeral  
Audio  
Scence  
Recognizer) [2], nhn dng các chương trình  
trên ti vi [3], [4], hay hthng phiên dch nt  
nhc AMTS [5]. Để xây dng mt hthng  
hoàn chnh thì rt khó khăn vì âm thanh rt  
phong phú, đa dng và mi loi có nhng đặc  
trưng riêng, skết hp gia chúng to nên vô  
vàn các dng âm thanh khác nhau, điu này  
nh hưởng ln đến vic phân loi các khung  
cnh âm thanh. Hu hết các nghiên cu nhn  
dng phân bit các lp âm thanh đều căn cứ  
theo tng trường hp mà bn đưa vslp,  
và mt vài điu kin ràng buc khác. Chng  
hn phân loi âm thanh thành bn lp: âm  
nhc, tiếng nói, nhiu, khong lng [4], [6]  
hoc chphân thành tiếng nói và âm nhc  
không thôi [3], [7].  
- Thanh điu: Giai điu có ý nghĩa sbiu  
thca dng sóng âm thanh. Âm nhc có xu  
hướng được to ra tsự đa dng ca các tn  
s. Còn tiếng nói có giai điu tchính sc  
điu và ging nói ca người nói.  
- Chui thay thế: Tiếng nói cho ta mt chui  
các tiếng n, khong lng xem ktng đon  
trong khi âm nhc không có. Nói cách khác,  
li nói có tín hiu phân phi thông qua quang  
phngu nhiên hơn so vi âm nhc.  
- Băng thông: Tiếng nói thường có 90%  
năng lượng tp trung tn sthp hơn 4kHz  
(và hn chế đến 8kHz), trong khi âm nhc có  
thmrng thông qua các gii hn trên  
khong 20kHz.  
SKHÁC NHAU GIA TING NÓI VÀ  
ÂM NHC  
- Phân phi: Năng lượng ca tiếng nói  
thường tp trung tn sthp sau đó gim rt  
nhanh trong các min tn scao hơn. Còn tín  
hiu âm nhc thì tri đều hơn.  
Các tín hiu âm thanh là mt tín hiu có ý  
nghĩa trong khong thi gian ngn. Khi kim  
*
Tel: 0972998865; Email:dtloan@ictu.edu.vn  
89  
Đỗ ThLoan Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 89 - 95  
- Tn scơ bn: vi tiếng nói cth, ta có  
thxác định được tn scơ bn nhưng vi âm  
nhc thì không.  
- Khong âm điu: Thi hn ca nguyên âm  
trong tiếng nói là rt thường xuyên. Âm nhc  
thhin mt biến thrng ln hơn chiu dài  
ca giai điu, không được hn chế do quá  
trình phát âm nhc.  
- Năng lượng ngn hn: Năng lượng ca tín  
hiu tiếng nói có sbiến thiên nhiu hơn so  
vi tín hiu âm nhc.  
- Tlvượt đim không: Tùy thuc vào tín  
hiu âm nhc và tiếng nói nhưng thông  
thường tlvượt đim không ca tín hiu  
tiếng nói sln hơn tín hiu âm nhc.  
phân bnăng lượng, chúng tôi đã la chn ba  
đặc trưng: Tltn sut vượt qua đim không  
cao HZCRR (Hight Zero Crossing Rate  
Ratio), tlkhung có năng lượng ngn hn  
thp LSTER (Low Short Time Energy Ratio)  
độ biến thiên phSF (Spectrum Flux). Còn  
phương pháp nhn dng phân bit chúng tôi  
sdng là thut toán K láng giêng gn nht  
K-NN (K Nearest Neighbor) [8].  
La chn đặc trưng  
Đặc trưng tn sut vượt qua đim không cao  
- HZCRR  
LA CHN ĐẶC TRƯNG VÀ PHƯƠNG  
PHÁP NHN DNG PHÂN BIT TING  
NÓI VI ÂM NHC  
Cho ti nay có khá nhiu đặc tính ca tín hiu  
âm thanh để nhn dng, phân bit tiếng nói và  
âm nhc hay các hthng nhn dng phân  
loi khác nhau. Mi nghiên cu đều đưa ra  
mt slượng các đặc tính ca tín hiu âm  
thanh và phương thc sdng để phân loi.  
Các đặc tính ca tín hiu âm thanh thường  
được chia làm hai loi chính là: các đặc tính  
vt lý và các đặc tính cm thâm thanh ca  
con người.  
Hình 1: Biu đồ tn sut vượt đim không  
ca tín hiu âm thanh  
Công thc ca HZCRR như sau:  
N 1  
1
HZCRR =  
[sign  
(ZCRn – THL) +1  
2 N  
n = 0  
Trong đó:  
Đặc tính vt lý là các đặc tính đặc trưng trong  
min tn sđặc trưng trong min thi gian  
như: biên độ, tn svượt đim không ZCR,  
năng lượng ngn hn, hsphMFCC, cp  
phtuyến tính LSP (Linear Spectrum Pair)  
[6], độ biến thiên phSF.  
- n là thtca ca strích chn đặc trưng  
- N là độ rng ca ca strích chn đặc trưng  
- ZCR là tn sut vượt đim không trong  
khong ngn theo công thc :  
k
1
[sign ( x ) sign ( xm 1 )]  
ZCRk =  
m
Đặc tính vcm thâm thanh ca con người  
là các đặc tính được con người cm nhn như  
nhp điu, độ cao ca âm (Pitch), độ ngân, âm  
sc,…. Cũng như nhiu nghiên cu trước đây,  
để nhn dng phân bit tiếng nói vi âm nhc  
nói riêng hay nhn dng phân bit các lp âm  
thanh khác nói chung hu như chsdng các  
đặc trưng vt lý là đủ. Bi vy trong bài báo  
này, chúng tôi cũng chdùng các đặc trưng  
liên quan ti min tn svà min thi gian  
(đặc trưng vt lý).  
2F m = k F +1  
F: độ dài khong ngn - thường là 1 frame  
- THL là tn sut vượt đim không trung  
bình trong ca stheo công thc:  
N 1  
1
THL =  
[ZCR ]  
n
N
n = 0  
Đặc trưng năng lượng ngn hn ca tín  
hiu - LSTER  
Công thc tính LSTER như sau:  
Da trên các phân tích, đánh giá về đặc đim  
ca tín hiu âm thanh, gia âm nhc và tiếng  
nói về đặc đim âm hc, di tn, đặc đim về  
N 1  
1
LSTER =  
[sign (THL STE ) + 1]  
n
2 N  
n = 0  
90  
Đỗ ThLoan Đtg  
Trong đó:  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 89 - 95  
Mahalanobis hay phương pháp đo khong  
cách City Block.  
- STE là năng lượng trong khong ngn  
(trong 1 frame) theo công thc:  
Bài toán: Gista có mt không gian đa  
chiu (Y1, Y2,…,Yn) và có mt tp hp các  
khu vc A, B trong đó:  
k
2
( x .w  
m
2
STE  
=
)
k
k m  
- Khu vc A ta biết được stn ti ca các  
đối tượng XA1, XA2, … XAn vi XAi={ YAi1,  
YAi2,…, YAin}  
m = k F + 1  
W là ca s(có thlà chnht hoc  
hamming)  
- Khu vc B ta chbiết stn ti ca các  
đối tượng XB1, XB2, … XBn vi XBi={ YBi1,  
YBi2,…, YBin}  
- THL là năng lượng trung bình theo công  
thc:  
N1  
1
Có mt đối tượng Xi ( Yi1, Yi2,…, Yin) bt kì  
ta cn xác định đối tượng Xi này thuc khu  
vc A hay B.  
THL =  
[STE ]  
n
2N  
n=0  
Đặc trưng độ biến thiên ph- SF  
Trong đó:  
- K là bc ca phDFT.  
- δ là hng sbé (=0.01) để loi trường hp  
log(0).  
Hình 3: Mô tthut toán K-NN  
- A(n,m) là biến đổi Fourier ri rc(DFT)  
theo công thc:  
Gii thut: Trong tt ccác đối tượng đã xác  
định rõ khu vc A và B, ta tìm K đối tượng  
gn vi Xi nht, trong K đối tượng này sxác  
định xem có bao nhiêu đối tượng thuc khu  
vc A, bao nhiêu đối tượng thuc khu vc B,  
khu vc nào nhiu đối tượng gn Xi hơn thì  
Xi có khnăng thuc khu vc đó.  
2
π
j
mi  
L
| A  
=
x(i)w (nL i).e  
|
(n, m )  
i = −∞  
Để tính khong cách gia các vectơ dùng  
công thc:  
D(X,X’)=  
THC HIN HTHNG NHN DNG  
PHÂN BIT TING NÓI VI ÂM NHC  
Hình 2. Biu đồ histogram độ biến thiên phổ  
theo không gian 3 chiu (a): music (b):speech  
Hthng có dng tng quát như hình 4.  
Hot động ca hthng gm hai quá trình  
riêng bit: thnht là quá trình hc (hun  
luyn) và thhai là quá trình nhn dng phân  
bit vi tín hiu đầu vào.  
Thut toán KNN  
Thut toán K-NN [8] là phương pháp phân  
loi da trên chtiêu không gian khong cách.  
Xác định mt đim thuc min nào bng cách  
tính toán da trên khong cách không gian.  
Có nhiu phương pháp để tính khong cách  
gia các vectơ như phương pháp đo khong  
cách Euclidean, phương pháp đo khong cách  
Hamming, phương pháp đo khong cách  
Quá trình hun luyn: Tín hiu đầu vào  
được đưa vào phân tích đặc trưng. Ti đây  
chúng được xlý, tính toán và ly ra giá trị  
các đặc trưng cn trích chn phc vcho vic  
xây dng hthng. Sau đó ti khi hun  
91  
Đỗ ThLoan Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 89 - 95  
luyn được xlý và lưu vào cơ sdliu  
(CSDL) mu. Quá trình hun luyn dùng  
phương pháp hc có giám sát nghĩa là chúng  
ta đã biết rõ sphân lp trên tp dliu mu  
dùng để hc, ở đây chcó hai lp: tiếng nói và  
âm nhc. Các đặc trưng mu ca tng lp  
được trích chn lưu riêng vào CSDL.  
Tuy nhiên vn đề khi phân khung ca tín hiu  
đó chính là sai sca cphép biến đổi so vi  
tín hiu gc, do đó nên sdng hàm ca sổ  
để hn chế các sai sdo độ dài hu hn ca  
các tín hiu gây ra trong các phép biến đổi.  
Hàm ca sthường được dùng là Hamming  
được cho bi công thc sau:  
2Π n  
Wn = 0.54 0.46 * cos(  
)
N 1  
KT QUẢ  
Cài đặt hthng  
Chúng tôi thc hin hthng nhn dng phân  
bit vi tín hiu đầu vào là các file âm thanh  
chun dng WAVE (*.wav), vic tính toán,  
xlý, phân bit đều thc hin da trên file  
wave này. Như đã phân tích trên quá trình  
hun luyn gm các bước cơ bn sau:  
Hình 4: Mô hình tng quát ca hthng  
Quá trình nhn dng phân bit: Trình tự  
thc hin cũng như trên nhưng chkhác là tín  
hiu sau khi được trích chn đặc trưng sẽ  
được đưa vào khi nhn dng phân bit. Ti  
khi này chúng ta phân tích đánh giá vi  
CSDL mu đã được hun luyn thông qua  
thut toán K-NN. Kết qunày sau đó được  
chuyn ti bra quyết định để xác định xem  
tín hiu hiu đó thuc lp tín hiu nào. Vectơ  
đặc trưng là vectơ 3 chiu vì ta chchn 3 đặc  
trưng như đã trình bày trên.  
Hình 6: Mô hình quá trình hun luyn  
Vi mi dãy tín hiu âm thanh đọc được, ta  
thc hin xác định khung tín hiu, tính các  
thông scơ bn STE, ZCR, A ca dãy tín hiu.  
Giao din cài đặt ca quá trình hun luyn:  
Phân khung tín hiu: Do tín hiu tiếng nói  
n định trong khong vài chc ms, nên khi  
tiến hành các phép phân tích, biến đổi người  
ta thường chia tín hiu thành có đon nhỏ  
khong 10 đến 30ms, đó được gi là phân  
khung, các khung tín hiu liên tiếp có thể  
chng nhau khong ½ độ dài.  
Hình 7: Giao din hun luyn, to dliu mu  
Hình 5: Phân khung tín hiu  
92  
Đỗ ThLoan Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 89 - 95  
- Bên phi là đồ thca tín hiu: ti khung ca  
sthnht là dng tín hiu âm thanh, tiếp theo  
là năng lượng trong khong ngn hn và tn  
sut vượt đim không ca tín hiu âm thanh.  
khung ca sth4 thhin đây là tiếng nói  
hay âm nhc (tiếng nói có biên độ bng 2/3  
khung còn âm nhc có biên độ = 1/3 khung).  
- Bên trái cũng là khung điu khin m,  
chn tín hiu file wave. Ngoài ra còn có sự  
la chn tham sK (K là sphn tthuc lp  
đặc trưng mu gn vi mu cn nhn dng  
phân bit nht).  
- Bên trái là các điu khin: mfile wave,  
nghe th, xác định tiếng nói hay âm nhc, lưu  
dliu.  
Quá trình nhn dng:  
Đánh giá  
Chương trình thc hin phân bit tiếng nói và  
âm nhc da trên mt tp các tín hiu âm  
thanh mu mà tôi sưu tm có được : tp hp  
tiếng nói là tiếng Vit, tp hp âm nhc là các  
thloi nhc không li ca mt strường  
phái âm nhc.  
Tp hp tiếng nói gm có 1037 file là các file  
phát âm các tca tiếng Vit, mi file có độ  
dài < 1s, có tn sly mu 16000Hz, bit rate  
là 16bit/mu.  
Hình 8: Mô hình quá trình nhn dng  
Quá trình nhn dng có mt sbước trùng  
vi quá trình hun luyn như vic đọc dữ  
liu file wave, thông scơ bn, tính các  
thông số đặc trưng.  
Tp hp âm nhc gm có 77 file là các file  
nhc không li ca các thloi R&B, Rock,  
Country…. Mi file có độ dài < 30s và có  
cùng tn sly mu 16000Hz, bit rate  
16bit/mu.  
Các file dliu mu trên đều là các file âm  
thanh mono (mt kênh).  
Qua thnghim, thng kê tôi thy chương  
trình đã thc hin vic phân bit tiếng nói và  
âm nhc vi tlchính xác tt vi các trường  
hp tiếng nói và âm nhc riêng bit.  
Sau đây là kết quthu được khi thnghim:  
Bng 1: Kết quthng kê cơ sdliu  
Hình 9: Giao din nhn dng phân bit  
Âm  
Tiếng  
Tương tnhư giao din hun luyn, giao din  
nhn dng cũng có các phn:  
nhc  
nói  
Giá trtrung bình ca  
LSTER  
0.2048  
0.3942  
0.14599  
- Bên phi là đồ thì biu din ca tín hiu: ti  
khung ca sthnht là dng tín hiu ca âm  
thanh, tiếp theo là năng lượng trong khong  
ngn hn và tn sut vượt đim không ca tín  
hiu âm thanh, tuy nhiên khác vi giao din  
hun luyn, giao din nhn dng còn có thêm  
Giá trtrung bình ca  
HZCRR  
0.2632  
0.22  
Giá trtrung bình ca SF 0.3885  
93  
Đỗ ThLoan Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 89 - 95  
Bng 2: Kết quthng kê nhn dng vi mt số  
lượng đầu vào là tiếng nói và âm nhc vi K=3  
tế (ng dng tự động thu thp thông tin, đánh  
giá chmc cho dliu đa phương tin.  
ILIU THAM KHO  
Âm nhc  
Tiếng nói  
[1]. David Gerhard, (2000), “Audio Signal  
classification: an overview” , Canadian Artificical  
Intelligence, 45:4-6, Winter.  
[2]. Peltonen, V., (2001) “Computational  
Auditory Scene Recognition”. MSc Thesis,  
Tampere University.  
[3]. Saunders, J., “Real-Time Discrimi-nation  
of Broadcast Speech/Music”, Proc. ICASSP,  
pp993-996  
10838432  
(92.36%)  
945553  
(15.56%)  
Nhn dng là âm  
nhc  
897324  
(7,64%)  
5131722  
(84.44%)  
Nhn dng là  
tiếng nói  
11735756  
(100%)  
6077275  
(100%  
Tng  
Bng 3: Kết quthng kê nhn dng vi mt số  
lượng đầu vào là tiếng nói và âm nhc vi K=5  
[4]. Srinivasan, S., (1999), Petkovic, D.,  
Poncelcon, D, “Toward robust features for  
classifying audio in the CueVideo System”, Proc  
7th ACM Int, Conf Multimedia, pp. 393-400.  
[5]. M.D. Plumbley, S.A Abdallah, J.P. Bello,  
M.F. Davies, G, Monti , M.B. Sandler (2002),  
Automatic music transcription and audio source  
separation”, Cybernetics and System, 33(6):603-627.  
[6]. Lu, L., Jiang, H., and Zhang, H. J., (2001),  
A robust audio classification and Segmentation  
method”, in Proc. 9th ACM Int Conf Multimedia,  
pp 203-211.  
Âm nhc  
Tiếng nói  
10878964  
(92.7%)  
856792  
(7,3%)  
11735756  
(100%)  
974188  
(16.03%)  
5103087  
(83.97%)  
6077275  
(100%)  
Nhn dng là  
âm nhc  
Nhn dng là  
tiếng nói  
Tng  
KT LUN  
Trong nghiên cu này chúng tôi chyếu tp  
trung phân tích đánh giá các đặc đim vt lý,  
đặc đim vcm thâm thanh ca hai tín  
hiu: âm nhc và tiếng nói: sau khi thử  
nghim dùng ba đặc trưng HZCRR, LSTER,  
SF vi thut toán phân loi K-NN chúng tôi  
thy kết quthu được là khá tt. Trong tương  
lai, chúng tôi stiếp tc hoàn thin hthng  
sao cho có được mt hthng hoàn chnh để  
có ththc hin tự động nhn dng phân bit  
tiếng nói vi âm nhc đem áp dng vào thc  
[7]. Scheier,  
E.,  
Slaney,  
M.,  
(1997),  
“Construction and  
Evaluation of a Robust  
Multifeature Speech/Music Discrimination”. Proc.  
ICASSP, pp1331-1334.  
[8]. S. Theodoridis, K. Kontroumbas (1999),  
Pattern Recognition”, Academic Press.  
94  
Đỗ ThLoan Đtg  
Tp chí KHOA HC & CÔNG NGHỆ  
112(12)/2: 89 - 95  
SUMMARY  
RESEARCH INTO METHOD OF DISCRIMINATION  
BETWEEN SPEECH AND MUSIC  
Do Thi Loan*, Luu Thi Lieu, Nguyen Thi Hien  
College of Information Communication and Technology – TNU  
Automatic discrimination of speech and music is an important tool in many multimedia  
applications. For the discrimination of speech and music we have used three characteristics:  
HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum  
Flux) and the algorithm for training and discrimination is K Nearest Neighbor. The data is musical  
segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and  
speech segments of male and female voices for Vietnamese. In the article the major objective of  
our research is to discriminate two audio signals: speech and music. We have got results with  
rather high accuracy: about 88% for speech and 92% for music. In the future, we would like to  
develop the system to classify more classes of audio signal.  
Key words: Discrimination, speech, music, Vietnamese music, Vietnamese  
Phn bin khoa hc: TS. Phm Đức Long – Trường Đại hc CNTT & TT – ĐH Thái Nguyên  
*
Tel: 0972998865; Email:dtloan@ictu.edu.vn  
pdf 7 trang baolam 09/05/2022 4240
Bạn đang xem tài liệu "Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfnghien_cuu_phuong_phap_nhan_dang_phan_biet_tieng_noi_voi_am.pdf