Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW

Phùng Thị Thu Hiền và cs  
Tạp chí KHOA HỌC & CÔNG NGHỆ  
61(12/2): 55 - 59  
TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG TẦN SỐ  
CƠ BẢN F0 VÀ GIẢI THUẬT THỜI GIAN ĐỘNG DTW  
Phùng Thị Thu Hiền1*, Thái Quang Vinh2, Phùng Trung Nghĩa3 ,Lê Tuấn Anh4  
1Đại học Kỹ thuật Công nghiệp Thái Nguyên, 2Viện Công nghệ thông tin, Viện KHCN Việt nam,  
3Japan Advanced Institute of Science and Technology, 4Khoa Công nghệ thông tin, Đại học Thái Nguyên  
TÓM TẮT  
Việc tìm kiếm bài hát trong một cơ sở dữ liệu là một vấn đề hấp dẫn đƣợc một số nhà nghiên cứu  
quan tâm trong thời gian gần đây. Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thƣờng dựa  
trên cơ sở tìm kiếm chỉ mục. Tuy nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhƣợc  
điểm.Với một từ khoá sử dụng khi tìm kiếm thì kết quả trả về của các truy vấn dựa trên text là một  
xâu dữ liệu. Mặt khác, đôi khi ngƣời dùng có thể quên tên hoặc nhớ không chính xác tên bài hát, lời  
bài hát, tác giả bài hát. Với cùng một bài hát, hoặc các bài hát tƣơng tự nhau nhƣng do các ca sĩ  
khác nhau hát thì kết quả tìm kiếm có thể là khác nhau. Tìm kiếm bài hát theo nội dung khắc phục  
đƣợc những nhƣợc điểm này. Trong các cơ sở dữ liệu đa phƣơng tiện lớn thì vấn đề tìm kiếm âm  
nhạc theo nội dung trở nên rất quan trọng. Bài báo này trình bày phƣơng pháp tìm kiếm âm nhạc  
theo nội dung dùng đặc trƣng dùng tần số cơ bản F0 và giải thuật thời gian động DTW.  
Từ khóa: Giải thuật thời gian động, Cao độ Pitch.  
ĐẶT VẤN ĐỀ  
Wraping) để phân lớp dữ liệu và đƣa ra các  
kết quả thực nghiệm.  
Tìm kiếm âm nhạc theo nội dung là một lĩnh  
CƠ SỞ LÝ THUYẾT  
vực nghiên cứu mới và đƣợc nhiều nhà  
nghiên cứu quan tâm. Hiện có một số phƣơng  
thức đã đƣợc áp dụng tìm kiếm âm nhạc theo  
nội dung. Một số nhà nghiên cứu nhƣ  
S.Blackburn, D.DeRoure [4] đã sử dụng kỹ  
thuật ƣớc lƣợng cao độ Pitch để xác định giai  
điệu của đoạn nhạc và sử dụng Pitch làm tham  
số đặc trƣng cho hệ thống tìm kiếm âm nhạc  
theo nội dung. Tƣơng tự, Mc Nab và các cộng  
sự [5] đã sử dụng phƣơng thức tính toán giai  
điệu bằng cách ƣớc tần số cơ bản F0 để so  
sánh giữa các bản phiên âm của mỗi bài hát.  
Trích chọn đặc trƣng âm thanh sử dụng  
tần số cơ bản F0 (Pitch)  
Cao độ (Pitch) là thuộc tính cơ bản của tiếng  
nói và âm thanh nói chung. Chu kỳ Pitch là  
đại lƣợng đƣợc xác định trên miền thời gian  
và tỉ lệ nghịch với tần số cơ bản F0 là đại  
lƣợng xác định trên miền tần số. Có rất nhiều  
thuật toán và phƣơng pháp ƣớc lƣợng Pitch.  
Các thuật toán ƣớc lƣợng Pitch cố gắng để  
định vị trực tiếp chu kỳ Pitch trong miền thời  
gian hoặc thông qua ƣớc lƣợng tần số cơ bản  
F0 trên miền tần số của tín hiệu âm thanh.  
Phƣơng pháp ƣớc lƣợng Pitch phổ biến nhất  
là sử dụng hàm tự tƣơng quan ACF  
(AutoCorrelation Function). Ý nghĩa tƣơng  
quan giữa hai tín hiệu là đo độ tƣơng tự giữa  
chúng và tự tƣơng quan là đo độ tƣơng tự của  
một tín hiệu và biến đổi theo thời gian của  
chính nó. Hàm tự tƣơng quan trong một  
khoảng thời gian hữu hạn, của một tín hiệu  
rời rạc theo thời gian s(n) có thể đƣợc biểu  
diễn là:  
Ghias và các cộng sự [6] đã giới thiệu các  
phƣơng pháp so khớp độ tƣơng tự sử dụng để  
đƣa ra kết quả truy vấn cơ sở dữ liệu âm nhạc.  
Tuy nhiên, theo kết quả nghiên cứu của Beth  
Logan [8] thì các phƣơng pháp tìm kiếm âm  
nhạc theo nội dung hiện nay vẫn chƣa đảm  
bảo đƣợc cả độ chính xác và thời gian tính  
toán, đặc biệt khi tìm kiếm giai điệu của các  
bản nhạc hoàn chỉnh trong hệ cơ sở dữ liệu  
lớn. Bài báo này trình bày phƣơng pháp  
dùng tham số tần số cơ bản F0 để trích chọn  
đặc trƣng âm thanh, sau đó dùng giải thuật  
thời gian động DTW (Dynamic Time  
N 1k  
r(k)  
s(m)s(m k)  
(1)  
m0  
k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài miền.  
Tel: 0986060545, Email: pthientng@gmail.com  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
55  
Phùng Thị Thu Hiền và cs  
Tạp chí KHOA HỌC & CÔNG NGHỆ  
61(12/2): 55 - 59  
Khoảng cách D(X,Y) giữa dữ liệu đầu vào và  
dữ liệu mẫu Y=y1….ys có độ dài thời gian  
khác nhau S T đƣợc xác định bằng tổng các  
khoảng cách cục bộ  
trên cả  
dij d(xi , yj )  
đƣờng đi của quá trình biến dạng thời gian.  
Khoảng cách tích luỹ  
đƣợc xác định theo  
Dij D(x1...xi , y1...yj )  
công thức (3)  
0
I=J=0  
min Di1, j1, Di1, j , Di, j1 dij  
I>0, J>0  
Kh¸c  
Và khoảng cách tổng D(X,Y)=DTS.  
Giả sử cho hai chuỗi vec tơ tƣơng ứng với  
Hình 1. Dạng sóng và tự tƣơng quan trên miền  
a1,a2 ,a3 ,....aI  
mẫu tín hiệu là  
a  
và  
thời gian  
b  
a
b1,b2 ,b3 ,....bJ  
. Cho rằng tín hiệu mẫu  
Hình 1 thể hiện một đoạn âm thanh ngắn và  
tính tự tƣơng quan của đoạn đó. Chu kỳ cao  
độ đƣợc theo dõi trên khoảng 80 mẫu. Đỉnh  
nhô lên trong sóng tự tƣơng quan biểu thị  
điều này. Giá trị cực đại để xuất hiện quá  
trình tự tƣơng quan là ở mức trễ 0. Một giá trị  
cực đại khác ở mức trễ 162, cho thấy một sự  
kết hợp tốt khi dịch chuyển là hai lần chu kỳ  
cao độ. Vì vậy, để ƣớc lƣợng cao độ Pitch,  
cửa sổ âm thanh nên chứa ít nhất hai chu kỳ  
cao độ (N >2/F0).  
b
có chiều dài lớn hơn mẫu tức là giá trị  
(I > J). Thuật toán sẽ thực hiện việc tìm  
đƣờng đi tối ƣu của chuỗi b theo chuỗi a (tức  
là các vị trí khác nhau giữa hai chuỗi theo  
thời gian) sao cho tổng chênh lệch giữa hai  
chuỗi vec tơ là nhỏ nhất.  
Để thực hiện đƣợc điều này ta dùng thuật toán  
dùng ma trận lƣới các điểm H2  
Kỹ thuật phân lớp dùng thời gian động  
DTW (Dynamic Time Warping)  
Cho chuỗi đầu vào w  
dài L và có chuỗi vector đặc tính  
, nhiệm vụ của hệ thống là  
w1,w2 ,...wL có độ  
X  
x1, x2 ,...xT  
phải nhận dạng chuỗi âm đầu vào và trong  
quá trình xử lý cần phải giảm thiểu tối đa các  
sai số quyết định. Mỗi tín hiệu đầu vào Wl sẽ  
đƣợc so sánh với các mẫu Yl. Mỗi Yl là chuỗi  
các vector đặc tính của tín hiệu Wl . Nhằm  
tăng khả năng nhận dạng, mỗi tín hiệu có một  
Hình 2. Ma trận lƣới các điểm  
Hai chuỗi véc tơ sẽ tƣơng ứng với hai cạnh  
của ma trận. Giả sử, véc tơ a theo trục x và  
véc tơ b theo trục y. Các nút của ma trận  
tƣơng ứng với khoảng cách tính đƣợc của hai  
chuỗi véc tơ tại các thời điểm thứ i của véc tơ  
a tƣơng ứng thời điểm thứ j của véc tơ b  
tƣơng ứng nút (i,j). Nhƣ vậy, đƣờng đi tối ƣu  
trong ma trận sẽ có dạng nhƣ hình 3  
tập hợp các mẫu khác nhau: Y ,...,Y  
.
l,1  
l,Ml  
l* argminmin D(X,Yl,m )  
(2 )  
m
l
Nhƣ vậy Wl* là phù hợp nhất với mẫu Yl tìm  
đƣợc.  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
56  
Phùng Thị Thu Hiền và cs  
Tạp chí KHOA HỌC & CÔNG NGHỆ  
61(12/2): 55 - 59  
tăng khối lƣợng tính toán (nếu xét trên toàn  
bộ ma trận điểm). Vì vậy, cần phải giới hạn  
phạm vi của đƣờng đi sao cho việc tính toán  
giảm và độ chính xác cao. Phạm vi cho  
đƣờng đi đƣợc chọn nhƣ hình vẽ 4:  
Hình 3. Hình dạng đƣờng đi trong ma trận  
Việc xác định đƣờng đi tối ƣu trong ma trận  
lƣới đƣợc thực hiện sao tổng khoảng cách sai  
lệch giữa các cặp véc tơ của hai chuỗi là nhỏ  
nhất. Ký hiệu, d(i,j) là độ chênh lệch của hai  
véc tơ a và b tại thời điểm i j tƣơng ứng.  
Hình 4. Phạm vi cho đƣờng đi  
Luật đƣờng đi đƣợc lựa chọn theo nhƣ hình 5.  
Yêu cầu của thuật toán DTW cho hai chuỗi  
vec tơ bất kỳ là cùng bắt đầu tại các vị trí  
(0,0) và kết thúc tại vị trí (I,J). Giá trị tại nút  
(0,0) xác định bằng 0.  
Đƣờng đi đƣợc xác định theo các cặp nút liên  
tiếp (ik-1,jk-1) (ik,jk) . Dùng ký hiệu ik để  
biểu diễn chỉ số của véc tơ a tại thời điểm k  
jk là chỉ số của véc tơ b tại thời điểm k.  
Nhƣ vậy tổng khoảng cách giữa hai chuỗi véc  
tơ là :  
Hình 5. Luật đƣờng đi  
D(ik , jk ) D(ik1, jk1 ) d(ik , jk )  
(4)  
Giả sử vị trí hiện tại đang ở thời điểm ik-1 và  
điểm đi tiếp là ik. Nhƣ vậy các giá trị jk có thể  
là jk, jk+1, jk+2 tƣơng ứng với các mũi tên trên  
ma trận.  
Việc tìm giá trị min D(i,j) theo công thức sau:  
D* (ik , jk ) min  
D(ik1, jk1)  
d(ik , jk )  
KẾT QUẢ THỰC NGHIỆM  
Chuẩn bị dữ liệu  
mk  
min  
d(i , j )  
m m  
(5)  
  
m0  
Dữ liệu bao gồm 20 bài hát thiếu nhi nổi tiếng  
Một số bắt buộc của DTW:  
thế  
giới  
đƣợc  
download  
từ  
g4public/QBSH-corpus/ . Trong các cấu trúc  
file âm thanh thì MIDI là định dạng file đơn  
giản, kích cỡ nhỏ gọn nhƣng vẫn biểu diễn  
đƣợc giai điệu âm nhạc. Do đó, trong bƣớc  
huấn luyện, chƣơng trình sử dụng 20 bản  
nhạc định dạng MIDI. PCM Wave là chuẩn  
mã hóa âm thanh đƣợc sử dụng khá phổ biến  
trong các hệ cơ sở dữ liệu âm nhạc, do vậy  
khi tìm kiếm chƣơng trình thử nghiệm trên 20  
- Chỉ số của i phải tăng đều tức là :  
ik - ik-1 =1  
- Chỉ số của j tăng theo i với điều kiện:  
jk -jk-1 0  
Giới hạn của đƣờng đi không thể tuỳ ý đƣợc  
vì nhƣ thế nó sẽ gây ra kết quả sai lệch và làm  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
57  
Phùng Thị Thu Hiền và cs  
Tạp chí KHOA HỌC & CÔNG NGHỆ  
61(12/2): 55 - 59  
file âm thanh PCM Wave có tần số lấy mẫu 8  
KHz, mã hóa 8 bít / mẫu, thu từ các điệu ngân  
nga không lời (humming) hoặc các đoạn hát  
không nhạc (singing) với giai điệu tƣơng ứng  
với 20 bản nhạc MIDI đã huấn luyện.  
và tìm kiếm đúng cũng sẽ giảm xuống khi độ  
dài mẫu âm thanh đầu vào là nhỏ.  
Về mặt thời gian, thời gian tìm kiếm cho mỗi  
file Wave (dài khoảng 1 phút) là xấp xỉ 0.2 s  
với điều kiện đã huấn luyện trƣớc. Thời gian  
này là chấp nhận đƣợc với ngƣời sử dụng.  
Thời gian tìm kiếm trong [8] là lớn hơn do  
thực nghiệm trên cơ sở dữ liệu âm nhạc lớn.  
Các tham số thực nghiệm  
Cao độ Pitch đƣợc tính theo phƣơng pháp tự  
tƣơng quan ACF với các tham số: kích cỡ  
khung là 256 ms, không chồng lấp. Sau khi  
tính Pitch bằng hàm ACF (AutoCorrelation  
Function), pitch đƣợc làm trơn bằng lọc trung  
vị. Phƣơng pháp phân lớp sử dụng thuật toán  
thời gian động DTW tiến hành so sánh chuỗi  
Pitch đầu vào cần tìm kiếm tính từ file Wave  
với lần lƣợt các chuỗi Pitch của các file MIDI  
trong cơ sở dữ liệu. Thuật toán thời gian động  
cho phép so sánh 2 chuỗi Pitch có độ dài khác  
nhau với sai số nhỏ nhất. Độ tƣơng tự của 2  
chuỗi pitch sau đó đƣợc tính toán bằng khoảng  
cách Euclid để tìm ra chuỗi phù hợp nhất.  
Chƣơng trình mô phỏng đƣợc xây dựng trên  
phần mềm matlab:  
Kết quả thực nghiệm và đánh giá  
Phƣơng pháp trích đặc trƣng giai điệu dùng  
tham số cao độ Pitch (hay tần số cơ bản F0)  
sử dụng đặc trƣng các giá trị cao độ và sự  
biến đổi cao độ làm tham số so sánh. Do vậy,  
hệ thống không yêu cầu khắt khe về mẫu đầu  
vào và có thể tìm kiếm đƣợc một tập nhiều  
kết quả đầu ra có giai điệu tƣơng tự. Ƣu điểm  
của hệ thống này là có thể tìm đƣợc nhiều kết  
quả dựa trên giai điệu mà chỉ cần ngƣời sử  
dụng cung cấp giai điệu bài hát một cách  
tƣơng đối nhƣ hát thử không nhạc, đánh thử  
một đoạn nhạc hay ngân nga giai điệu không  
có lời (humming). Nhƣợc điểm của hệ thống  
này là kết quả tìm kiếm có thể thiếu chính xác  
do một số bài hát khác nhau có thể có những  
phần nhỏ giai điệu tƣơng tự nhau.  
Hình 6. Kết quả chạy chƣơng trình  
Hƣớng phát triển  
Trƣớc hết cần xây dựng một cơ sở dữ liệu âm  
nhạc đủ lớn để thử nghiệm. Từ đó sẽ đánh giá  
đƣợc độ chính xác, hiệu quả của các phƣơng  
pháp tìm kiếm và có thể đề xuất các phƣơng  
pháp cải tiến thao tác trích đặc trƣng và phân  
lớp của hệ thống tìm kiếm.  
Hƣớng nghiên cứu tiếp theo cũng sẽ là tìm  
hiểu sâu hơn về các phƣơng pháp phân lớp dữ  
liệu triển vọng nhƣ dùng mạng Neural, giải  
thuật di truyền GA, mô hình Markov ẩn  
HMM,…  
Trong chƣơng trình thực nghiệm, kết quả  
nhận dạng đúng sau 20 lần là 100%. Kết quả  
này cao hơn kết quả đã công bố trong [8] và  
[10] dù dùng cùng thuật toán. Lý do có thể do  
chƣơng trình demo mới thử nghiệm trên bộ  
cơ sở dữ liệu rất nhỏ. Tỷ lệ nhận dạng sẽ giảm  
xuống khi dùng cơ sở dữ liệu lớn hơn (đặc  
biệt khi trong cơ sở dữ liệu có các bài hát có  
những phần tƣơng tự nhau), tỷ lệ nhận dạng  
TÀI LIỆU THAM KHẢO  
[1]. E.Riskin and R.Gray, “A greedy tree growing  
algorithm for the design of variable rate vector  
quantizers”, IEEE Trans. On Sig.Proc, Nov 1991  
[2]. J.-S.  
Roger  
Jang,  
Hong-Ru  
Lee,  
"Hierarchical Filtering Method for Content-based  
Music Retrieval via Acoustic Input", The 9th  
ACM Multimedia Conference, PP. 401-410,  
Ottawa, Ontario, Canada, September 2001.  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
58  
Phùng Thị Thu Hiền và cs  
Tạp chí KHOA HỌC & CÔNG NGHỆ  
61(12/2): 55 - 59  
[3]. Beth Logan and Ariel Salomon, “A Music  
Similarity Function Based on Signal Analysis”,  
Cambridge Research Laboratory.  
[7]. M Goto, “A predominant-F0 estimation  
method for CD recordings: MAP estimation using  
EM algorithm for adaptive tone models,” in Proc.  
ICASSP, 2001  
[8]. Beth Logan and Stephen Chu, “Music  
Summarization Using Key Phrases”, Cambridge  
Research Laboratories  
[4]. S.Blackburn and D. De Roure, “A tool for  
content based navigation of music”, in ACM  
Multimedia ,1998.  
[9]. J.T. Foote, “Content-based retrieval of Music  
and Audio,” in SPIE, 1997, p.p 138- 147  
[5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson,  
and S.Cunningham, “Towards the digital music  
library: Tune retrieval from acoustic input,” in  
Digital Libraries 1996, 1996, pp.11-18  
[6]. A.Ghias, J.Logan, D. Chamberlin and  
B.Smith, “Query by humming,” in ACM  
Multimedia, 1995 .  
[10]. J.-S. Roger Jang, Hong-Ru Lee,  
"Hierarchical Filtering Method for Content-based  
Music Retrieval via Acoustic Input", The 9th  
ACM Multimedia Conference, PP. 401-410,  
Ottawa, Ontario, Canada, September 2001.  
SUMMARY  
USING FUNDAMENTAL FREQUENCY AND ALGORITHM DYNAMIC TIME  
WARPING (DTW) TO SEARCH CONTEND MUSIC  
Phung Thi Thu Hien1, Thai Quang Vinh2, Phung Trung Nghia3 , Le Tuan Anh4  
1University of Technology,  
2Academy of Information Technology - Vietnam Academy of Science and Technology  
3Japan Advanced Institute of Science and Technology  
, 4Faculty of information Technology- Thai Nguyen University  
Song searching in a database is interesting field which attract many researchers recently. Music  
searching in current database is usually based on text query. In a huge multimedia database, content-  
based music searching becomes incredible.  
This paper presents the content-based music searching method using F0 and the DTW algorithm.  
Experimental results show that this is an effective method and need to continue researching.  
Keywords: Dynamic Time Warping, Pitch.  
Tel: 0986060545, Email: pthientng@gmail.com  
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên  
59  
pdf 5 trang baolam 09/05/2022 3380
Bạn đang xem tài liệu "Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdftim_kiem_am_nhac_theo_noi_dung_su_dung_dac_trung_tan_so_co_b.pdf