Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW

Download

Phùng Thị Thu Hiền và cs

Tạp chí KHOA HỌC & CÔNG NGHỆ

61(12/2): 55 - 59

TÌM KIẾM ÂM NHẠC THEO NỘI DUNG SỬ DỤNG ĐẶC TRƢNG TẦN SỐ

CƠ BẢN F0 VÀ GIẢI THUẬT THỜI GIAN ĐỘNG DTW

Phùng Thị Thu Hiền^1*, Thái Quang Vinh², Phùng Trung Nghĩa³,Lê Tuấn Anh⁴

¹Đại học Kỹ thuật Công nghiệp Thái Nguyên, ²Viện Công nghệ thông tin, Viện KHCN Việt nam,

³Japan Advanced Institute of Science and Technology, ⁴Khoa Công nghệ thông tin, Đại học Thái Nguyên

TÓM TẮT

Việc tìm kiếm bài hát trong một cơ sở dữ liệu là một vấn đề hấp dẫn đƣợc một số nhà nghiên cứu

quan tâm trong thời gian gần đây. Tìm kiếm âm nhạc trong các cơ sở dữ liệu hiện tại thƣờng dựa

trên cơ sở tìm kiếm chỉ mục. Tuy nhiên, việc tìm kiếm âm nhạc theo chỉ mục có nhiều nhƣợc

điểm.Với một từ khoá sử dụng khi tìm kiếm thì kết quả trả về của các truy vấn dựa trên text là một

xâu dữ liệu. Mặt khác, đôi khi ngƣời dùng có thể quên tên hoặc nhớ không chính xác tên bài hát, lời

bài hát, tác giả bài hát. Với cùng một bài hát, hoặc các bài hát tƣơng tự nhau nhƣng do các ca sĩ

khác nhau hát thì kết quả tìm kiếm có thể là khác nhau. Tìm kiếm bài hát theo nội dung khắc phục

đƣợc những nhƣợc điểm này. Trong các cơ sở dữ liệu đa phƣơng tiện lớn thì vấn đề tìm kiếm âm

nhạc theo nội dung trở nên rất quan trọng. Bài báo này trình bày phƣơng pháp tìm kiếm âm nhạc

theo nội dung dùng đặc trƣng dùng tần số cơ bản F0 và giải thuật thời gian động DTW.

Từ khóa: Giải thuật thời gian động, Cao độ Pitch.

^ĐẶT VẤN ĐỀ

Wraping) để phân lớp dữ liệu và đƣa ra các

kết quả thực nghiệm.

Tìm kiếm âm nhạc theo nội dung là một lĩnh

CƠ SỞ LÝ THUYẾT

vực nghiên cứu mới và đƣợc nhiều nhà

nghiên cứu quan tâm. Hiện có một số phƣơng

thức đã đƣợc áp dụng tìm kiếm âm nhạc theo

nội dung. Một số nhà nghiên cứu nhƣ

S.Blackburn, D.DeRoure [4] đã sử dụng kỹ

thuật ƣớc lƣợng cao độ Pitch để xác định giai

điệu của đoạn nhạc và sử dụng Pitch làm tham

số đặc trƣng cho hệ thống tìm kiếm âm nhạc

theo nội dung. Tƣơng tự, Mc Nab và các cộng

sự [5] đã sử dụng phƣơng thức tính toán giai

điệu bằng cách ƣớc tần số cơ bản F0 để so

sánh giữa các bản phiên âm của mỗi bài hát.

Trích chọn đặc trƣng âm thanh sử dụng

tần số cơ bản F0 (Pitch)

Cao độ (Pitch) là thuộc tính cơ bản của tiếng

nói và âm thanh nói chung. Chu kỳ Pitch là

đại lƣợng đƣợc xác định trên miền thời gian

và tỉ lệ nghịch với tần số cơ bản F0 là đại

lƣợng xác định trên miền tần số. Có rất nhiều

thuật toán và phƣơng pháp ƣớc lƣợng Pitch.

Các thuật toán ƣớc lƣợng Pitch cố gắng để

định vị trực tiếp chu kỳ Pitch trong miền thời

gian hoặc thông qua ƣớc lƣợng tần số cơ bản

F0 trên miền tần số của tín hiệu âm thanh.

Phƣơng pháp ƣớc lƣợng Pitch phổ biến nhất

là sử dụng hàm tự tƣơng quan ACF

(AutoCorrelation Function). Ý nghĩa tƣơng

quan giữa hai tín hiệu là đo độ tƣơng tự giữa

chúng và tự tƣơng quan là đo độ tƣơng tự của

một tín hiệu và biến đổi theo thời gian của

chính nó. Hàm tự tƣơng quan trong một

khoảng thời gian hữu hạn, của một tín hiệu

rời rạc theo thời gian s(n) có thể đƣợc biểu

diễn là:

Ghias và các cộng sự [6] đã giới thiệu các

phƣơng pháp so khớp độ tƣơng tự sử dụng để

đƣa ra kết quả truy vấn cơ sở dữ liệu âm nhạc.

Tuy nhiên, theo kết quả nghiên cứu của Beth

Logan [8] thì các phƣơng pháp tìm kiếm âm

nhạc theo nội dung hiện nay vẫn chƣa đảm

bảo đƣợc cả độ chính xác và thời gian tính

toán, đặc biệt khi tìm kiếm giai điệu của các

bản nhạc hoàn chỉnh trong hệ cơ sở dữ liệu

lớn. Bài báo này trình bày phƣơng pháp

dùng tham số tần số cơ bản F0 để trích chọn

đặc trƣng âm thanh, sau đó dùng giải thuật

thời gian động DTW (Dynamic Time

N 1k

r(k) 

s(m)s(m  k)

(1)



m0

k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài miền.

^Tel: 0986060545, Email: pthientng@gmail.com

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.Lrc-tnu.edu.vn

Phùng Thị Thu Hiền và cs

Tạp chí KHOA HỌC & CÔNG NGHỆ

61(12/2): 55 - 59

Khoảng cách D(X,Y) giữa dữ liệu đầu vào và

dữ liệu mẫu Y=y₁….y_scó độ dài thời gian

khác nhau S  T đƣợc xác định bằng tổng các

khoảng cách cục bộ

trên cả

d_ij d(x_i, y_j)

đƣờng đi của quá trình biến dạng thời gian.

Khoảng cách tích luỹ

đƣợc xác định theo

D_ij D(x₁...x_i, y₁...y_j)

công thức (3)





I=J=0





min D_{i1, j1}, D_{i1, j}, D_{i, j1} d_ij

I>0, J>0





Kh¸c





Và khoảng cách tổng D(X,Y)=D_TS.

Giả sử cho hai chu_ỗi vec tơ tƣơng ứng với

Hình 1. Dạng sóng và tự tƣơng quan trên miền



a₁,a₂,a₃,....a_I



mẫu tín hiệu là

a 

và



thời gian

b 



b₁,b₂,b₃,....b_J



. Cho rằng tín hiệu mẫu



Hình 1 thể hiện một đoạn âm thanh ngắn và

tính tự tƣơng quan của đoạn đó. Chu kỳ cao

độ đƣợc theo dõi trên khoảng 80 mẫu. Đỉnh

nhô lên trong sóng tự tƣơng quan biểu thị

điều này. Giá trị cực đại để xuất hiện quá

trình tự tƣơng quan là ở mức trễ 0. Một giá trị

cực đại khác ở mức trễ 162, cho thấy một sự

kết hợp tốt khi dịch chuyển là hai lần chu kỳ

cao độ. Vì vậy, để ƣớc lƣợng cao độ Pitch,

cửa sổ âm thanh nên chứa ít nhất hai chu kỳ

cao độ (N >2/F0).

có chiều dài lớn hơn mẫu tức là giá trị

(I > J). Thuật toán sẽ thực hiện việc tìm

đƣờng đi tối ƣu của chuỗi b theo chuỗi a (tức

là các vị trí khác nhau giữa hai chuỗi theo

thời gian) sao cho tổng chênh lệch giữa hai

chuỗi vec tơ là nhỏ nhất.

Để thực hiện đƣợc điều này ta dùng thuật toán

dùng ma trận lƣới các điểm H2

Kỹ thuật phân lớp dùng thời gian động

DTW (Dynamic Time Warping)

Cho chuỗi đầu vào w 

dài L và có chuỗi vector đặc tính

, nhiệm vụ của hệ thống là



w₁,w₂,...w_Lcó độ



X 



x₁, x₂,...x_T



phải nhận dạng chuỗi âm đầu vào và trong

quá trình xử lý cần phải giảm thiểu tối đa các

sai số quyết định. Mỗi tín hiệu đầu vào W_lsẽ

đƣợc so sánh với các mẫu Y_l. Mỗi Y_llà chuỗi

các vector đặc tính của tín hiệu W_l. Nhằm

tăng khả năng nhận dạng, mỗi tín hiệu có một

Hình 2. Ma trận lƣới các điểm

Hai chuỗi véc tơ sẽ tƣơng ứng với hai cạnh

của ma trận. Giả sử, véc tơ a theo trục x và

véc tơ b theo trục y. Các nút của ma trận

tƣơng ứng với khoảng cách tính đƣợc của hai

chuỗi véc tơ tại các thời điểm thứ i của véc tơ

a tƣơng ứng thời điểm thứ j của véc tơ b

tƣơng ứng nút (i,j). Nhƣ vậy, đƣờng đi tối ƣu

trong ma trận sẽ có dạng nhƣ hình 3

tập hợp các mẫu khác nhau: Y ,...,Y

l,1

l,M_l

l^* argminmin D(X,Y_l,m)

(2 )

Nhƣ vậy W_l*là phù hợp nhất với mẫu Y_ltìm

đƣợc.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.Lrc-tnu.edu.vn

Phùng Thị Thu Hiền và cs

Tạp chí KHOA HỌC & CÔNG NGHỆ

61(12/2): 55 - 59

tăng khối lƣợng tính toán (nếu xét trên toàn

bộ ma trận điểm). Vì vậy, cần phải giới hạn

phạm vi của đƣờng đi sao cho việc tính toán

giảm và độ chính xác cao. Phạm vi cho

đƣờng đi đƣợc chọn nhƣ hình vẽ 4:

Hình 3. Hình dạng đƣờng đi trong ma trận

Việc xác định đƣờng đi tối ƣu trong ma trận

lƣới đƣợc thực hiện sao tổng khoảng cách sai

lệch giữa các cặp véc tơ của hai chuỗi là nhỏ

nhất. Ký hiệu, d(i,j) là độ chênh lệch của hai

véc tơ a và b tại thời điểm i và j tƣơng ứng.

Hình 4. Phạm vi cho đƣờng đi

Luật đƣờng đi đƣợc lựa chọn theo nhƣ hình 5.

Yêu cầu của thuật toán DTW cho hai chuỗi

vec tơ bất kỳ là cùng bắt đầu tại các vị trí

(0,0) và kết thúc tại vị trí (I,J). Giá trị tại nút

(0,0) xác định bằng 0.

Đƣờng đi đƣợc xác định theo các cặp nút liên

tiếp (i_k-1,j_k-1)  (i_k,j_k) . Dùng ký hiệu i_kđể

biểu diễn chỉ số của véc tơ a tại thời điểm k

và j_klà chỉ số của véc tơ b tại thời điểm k.

Nhƣ vậy tổng khoảng cách giữa hai chuỗi véc

tơ là :

Hình 5. Luật đƣờng đi

D(i_k, j_k)  D(i_k1, j_k1)  d(i_k, j_k)

(4)

Giả sử vị trí hiện tại đang ở thời điểm i_k-1và

điểm đi tiếp là i_k. Nhƣ vậy các giá trị j_kcó thể

là j_k, j_k+1, j_k+2tƣơng ứng với các mũi tên trên

ma trận.

Việc tìm giá trị min D(i,j) theo công thức sau:

D^*(i_k, j_k)  min



D(i_k1, j_k1)



 d(i_k, j_k)

KẾT QUẢ THỰC NGHIỆM

Chuẩn bị dữ liệu

^mk



 min

d(i , j )

m m

(5)

_



m0





Dữ liệu bao gồm 20 bài hát thiếu nhi nổi tiếng

Một số bắt buộc của DTW:

thế

giới

đƣợc

download

từ

http://140.114.76.148/jang2/dataSet/childSon

g4public/QBSH-corpus/ . Trong các cấu trúc

file âm thanh thì MIDI là định dạng file đơn

giản, kích cỡ nhỏ gọn nhƣng vẫn biểu diễn

đƣợc giai điệu âm nhạc. Do đó, trong bƣớc

huấn luyện, chƣơng trình sử dụng 20 bản

nhạc định dạng MIDI. PCM Wave là chuẩn

mã hóa âm thanh đƣợc sử dụng khá phổ biến

trong các hệ cơ sở dữ liệu âm nhạc, do vậy

khi tìm kiếm chƣơng trình thử nghiệm trên 20

- Chỉ số của i phải tăng đều tức là :

i_k- i_k-1=1

- Chỉ số của j tăng theo i với điều kiện:

j_k-j_k-1 0

Giới hạn của đƣờng đi không thể tuỳ ý đƣợc

vì nhƣ thế nó sẽ gây ra kết quả sai lệch và làm

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.Lrc-tnu.edu.vn

Phùng Thị Thu Hiền và cs

Tạp chí KHOA HỌC & CÔNG NGHỆ

61(12/2): 55 - 59

file âm thanh PCM Wave có tần số lấy mẫu 8

KHz, mã hóa 8 bít / mẫu, thu từ các điệu ngân

nga không lời (humming) hoặc các đoạn hát

không nhạc (singing) với giai điệu tƣơng ứng

với 20 bản nhạc MIDI đã huấn luyện.

và tìm kiếm đúng cũng sẽ giảm xuống khi độ

dài mẫu âm thanh đầu vào là nhỏ.

Về mặt thời gian, thời gian tìm kiếm cho mỗi

file Wave (dài khoảng 1 phút) là xấp xỉ 0.2 s

với điều kiện đã huấn luyện trƣớc. Thời gian

này là chấp nhận đƣợc với ngƣời sử dụng.

Thời gian tìm kiếm trong [8] là lớn hơn do

thực nghiệm trên cơ sở dữ liệu âm nhạc lớn.

Các tham số thực nghiệm

Cao độ Pitch đƣợc tính theo phƣơng pháp tự

tƣơng quan ACF với các tham số: kích cỡ

khung là 256 ms, không chồng lấp. Sau khi

tính Pitch bằng hàm ACF (AutoCorrelation

Function), pitch đƣợc làm trơn bằng lọc trung

vị. Phƣơng pháp phân lớp sử dụng thuật toán

thời gian động DTW tiến hành so sánh chuỗi

Pitch đầu vào cần tìm kiếm tính từ file Wave

với lần lƣợt các chuỗi Pitch của các file MIDI

trong cơ sở dữ liệu. Thuật toán thời gian động

cho phép so sánh 2 chuỗi Pitch có độ dài khác

nhau với sai số nhỏ nhất. Độ tƣơng tự của 2

chuỗi pitch sau đó đƣợc tính toán bằng khoảng

cách Euclid để tìm ra chuỗi phù hợp nhất.

Chƣơng trình mô phỏng đƣợc xây dựng trên

phần mềm matlab:

Kết quả thực nghiệm và đánh giá

Phƣơng pháp trích đặc trƣng giai điệu dùng

tham số cao độ Pitch (hay tần số cơ bản F0)

sử dụng đặc trƣng các giá trị cao độ và sự

biến đổi cao độ làm tham số so sánh. Do vậy,

hệ thống không yêu cầu khắt khe về mẫu đầu

vào và có thể tìm kiếm đƣợc một tập nhiều

kết quả đầu ra có giai điệu tƣơng tự. Ƣu điểm

của hệ thống này là có thể tìm đƣợc nhiều kết

quả dựa trên giai điệu mà chỉ cần ngƣời sử

dụng cung cấp giai điệu bài hát một cách

tƣơng đối nhƣ hát thử không nhạc, đánh thử

một đoạn nhạc hay ngân nga giai điệu không

có lời (humming). Nhƣợc điểm của hệ thống

này là kết quả tìm kiếm có thể thiếu chính xác

do một số bài hát khác nhau có thể có những

phần nhỏ giai điệu tƣơng tự nhau.

Hình 6. Kết quả chạy chƣơng trình

Hƣớng phát triển

Trƣớc hết cần xây dựng một cơ sở dữ liệu âm

nhạc đủ lớn để thử nghiệm. Từ đó sẽ đánh giá

đƣợc độ chính xác, hiệu quả của các phƣơng

pháp tìm kiếm và có thể đề xuất các phƣơng

pháp cải tiến thao tác trích đặc trƣng và phân

lớp của hệ thống tìm kiếm.

Hƣớng nghiên cứu tiếp theo cũng sẽ là tìm

hiểu sâu hơn về các phƣơng pháp phân lớp dữ

liệu triển vọng nhƣ dùng mạng Neural, giải

thuật di truyền GA, mô hình Markov ẩn

HMM,…

Trong chƣơng trình thực nghiệm, kết quả

nhận dạng đúng sau 20 lần là 100%. Kết quả

này cao hơn kết quả đã công bố trong [8] và

[10] dù dùng cùng thuật toán. Lý do có thể do

chƣơng trình demo mới thử nghiệm trên bộ

cơ sở dữ liệu rất nhỏ. Tỷ lệ nhận dạng sẽ giảm

xuống khi dùng cơ sở dữ liệu lớn hơn (đặc

biệt khi trong cơ sở dữ liệu có các bài hát có

những phần tƣơng tự nhau), tỷ lệ nhận dạng

TÀI LIỆU THAM KHẢO

[1]. E.Riskin and R.Gray, “A greedy tree growing

algorithm for the design of variable rate vector

quantizers”, IEEE Trans. On Sig.Proc, Nov 1991

[2]. J.-S.

Roger

Jang,

Hong-Ru

Lee,

"Hierarchical Filtering Method for Content-based

Music Retrieval via Acoustic Input", The 9th

ACM Multimedia Conference, PP. 401-410,

Ottawa, Ontario, Canada, September 2001.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.Lrc-tnu.edu.vn

Phùng Thị Thu Hiền và cs

Tạp chí KHOA HỌC & CÔNG NGHỆ

61(12/2): 55 - 59

[3]. Beth Logan and Ariel Salomon, “A Music

Similarity Function Based on Signal Analysis”,

Cambridge Research Laboratory.

[7]. M Goto, “A predominant-F0 estimation

method for CD recordings: MAP estimation using

EM algorithm for adaptive tone models,” in Proc.

ICASSP, 2001

[8]. Beth Logan and Stephen Chu, “Music

Summarization Using Key Phrases”, Cambridge

Research Laboratories

[4]. S.Blackburn and D. De Roure, “A tool for

content based navigation of music”, in ACM

Multimedia ,1998.

[9]. J.T. Foote, “Content-based retrieval of Music

and Audio,” in SPIE, 1997, p.p 138- 147

[5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson,

and S.Cunningham, “Towards the digital music

library: Tune retrieval from acoustic input,” in

Digital Libraries 1996, 1996, pp.11-18

[6]. A.Ghias, J.Logan, D. Chamberlin and

B.Smith, “Query by humming,” in ACM

Multimedia, 1995 .

[10]. J.-S. Roger Jang, Hong-Ru Lee,

"Hierarchical Filtering Method for Content-based

Music Retrieval via Acoustic Input", The 9th

ACM Multimedia Conference, PP. 401-410,

Ottawa, Ontario, Canada, September 2001.

SUMMARY

USING FUNDAMENTAL FREQUENCY AND ALGORITHM DYNAMIC TIME

WARPING (DTW) TO SEARCH CONTEND MUSIC

Phung Thi Thu Hien^1, Thai Quang Vinh², Phung Trung Nghia³, Le Tuan Anh⁴

¹University of Technology,

²Academy of Information Technology - Vietnam Academy of Science and Technology

³Japan Advanced Institute of Science and Technology

, ⁴Faculty of information Technology- Thai Nguyen University

Song searching in a database is interesting field which attract many researchers recently. Music

searching in current database is usually based on text query. In a huge multimedia database, content-

based music searching becomes incredible.

This paper presents the content-based music searching method using F0 and the DTW algorithm.

Experimental results show that this is an effective method and need to continue researching.

Keywords: Dynamic Time Warping, Pitch.

^Tel: 0986060545, Email: pthientng@gmail.com

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

http://www.Lrc-tnu.edu.vn

5 trang baolam 09/05/2022 3380

Download

Bạn đang xem tài liệu "Tìm kiếm âm nhạc theo nội dung sử dụng đặc trưng tần số cơ bản F0 và giải thuật thời gian động DTW", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

tim_kiem_am_nhac_theo_noi_dung_su_dung_dac_trung_tan_so_co_b.pdf