So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung

Download

Phùng Thị Thu Hiền và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 33 - 38

SO SÁNH HAI PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG ÂM THANH:

ĐƯỜNG BAO PHỔ (MFCC) VÀ CAO ĐỘ PITCH TRONG VIỆC

TÌM KIẾM ÂM NHẠC THEO NỘI DUNG

Phùng Thị Thu Hiền^1*, Đoàn Xuân Ngọc², Phùng Trung Nghĩa³

¹Trường Đại học Kỹ thuật Công nghiệp - ĐH Thái Nguyên

²Cục thuế tỉnh Thái Nguyên

³Trường Đại học CNTT&TT - ĐH Thái Nguyên

TÓM TẮT

Trong cách tiếp cận truyền thống, các vector đặc trưng của tín hiệu âm thanh được xây dựng từ các

đặc trưng vật lý của âm thanh như độ to, độ cao, năng lượng, phổ tần số,… Có rất nhiều phương

pháp trích chọn đặc trưng âm thanh đã và đang được nghiên cứu để áp dụng vào bài toán tìm kiếm

âm nhạc theo nội dung. Tuy nhiên hai phương pháp phổ biến nhất và được đánh giá cao là phương

pháp sử dụng đường bao phổ (MFCC) và phương pháp sử dụng cao độ (F0).

Bài báo này nghiên cứu về hai phương pháp này đồng thời so sánh đánh giá hiệu quả của từng

phương pháp.

Từ khóa: Vector đặc trưng, Mel Cepstral, K-means, F0, pitch, DTW.

ĐẶT VẤN ĐỀ^*

bao phổ (MFCC), cuối cùng là đưa ra một số

kết quả thực nghiệm để so sánh hiệu quả của

hai phương pháp.

Hiện nay, có rất nhiều nghiên cứu về vấn đề

trích chọn đặc trưng âm thanh trong bài toán

CƠ SỞ LÝ THUYẾT

Sử dụng đặc trưng cao độ

Cao độ Pitch

tìm kiếm âm nhạc theo nội dung.

S.Blackburn và D.DeRoure [4] đã sử dụng kỹ

thuật hiệu chỉnh cao độ (F0) để xác định giai

điệu chính của đoạn nhạc. Trong nghiên cứu

của mình, S.Blackburn và D.DeRoure đã so

sánh tính toán độ tương tự của bài hát bằng

kỹ thuật so khớp xâu. Trong khi đó, Mc Nab,

Smith, Witten, Henderson và Cunningham [5]

đã sử dụng phương thức tính toán giai điệu

bằng cách ước lượng cao độ Pitch để so sánh

giữa các bản phiên âm của mỗi bài hát.

Không khí đi qua thanh quản làm thanh quản

rung lên. Sự rung động này với một tỷ lệ nào

đó cũng được gọi là tần số cơ bản – f₀. Tần

số cơ bản phụ thuộc vào kích cỡ và áp lực của

thanh quản. Tần số cơ bản liên quan đến âm

thanh về cao độ và nó có thể được ước lượng

chính xác từ tín hiệu âm thanh.

Độ cao hay độ trầm bổng của âm thanh chính

là tần số sóng cơ học của âm thanh. Âm thanh

nào cũng phát ra ở một độ cao nhất định. Độ

cao của âm thanh phụ thuộc vào tần số dao

động. Đối với tiếng nói, tần số dao động của

dây thanh quy định độ cao giọng nói của con

người. Mỗi người có một cao độ giọng nói

khác nhau, độ cao của nữ giới thường cao hơn

nam giới và độ cao của trẻ em thường cao

hơn của người lớn.

Tuy nhiên, theo một nghiên cứu của Beth

Logan [3] thì cấu trúc âm thanh của âm nhạc

là quan trọng. Vì vậy cần phải có một hệ

thống nhận biết độ tương tự âm thanh theo

cách gần giống như hệ thống nghe của con

người, và hệ thống thính giác của con người

dễ dàng thu và nhận dạng các nhóm âm thanh

hơn là từng nốt nhạc hay âm riêng lẻ.

Bài báo này trình bày phương pháp tìm kiếm

âm nhạc theo nội dung sử dụng theo hai đặc

trưng, thứ nhất là sử dụng đặc trưng cao độ

(Pitch) và thứ hai là sử dụng đặc trưng đường

Cao độ Pitch do đó là đại lượng tỷ lệ nghịch

với tần số cơ bản F0.

Pitch là thuộc tính cơ bản của tiếng nói. Tai

người nhạy cảm với sự thay đổi tần số cơ bản

^*Tel: 0986060545; Email: pthientng@gmail.com

Phùng Thị Thu Hiền và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 33 - 38

hơn là các tham số khác của tín hiệu tiếng

nói. Ước lượng pitch khó do sự thay đổi của

sóng âm thanh. Sóng âm thanh thay đổi nhỏ

giữa các chu kỳ, thời điểm lựa chọn để đo sẽ

ảnh hưởng tới chu kỳ cao độ. Ước lượng cao

độ thiếu chính xác do sự xuất hiện của sóng

hài hoặc hài bậc ba của cao độ tần số.

cực đại khác ở mức trễ 162, cho thấy một sự

kết hợp tốt khi dịch chuyển là hai lần chu kỳ

cao độ. Vì vậy, để ước lượng cao độ pitch,

cửa sổ âm thanh nên chứa ít nhất hai chu kỳ

cao độ (N >2/Fo).

Ước lượng Cepstral Pitch

Khi một tín hiệu tuần hoàn với tần số cơ bản

Fo chứa nhiều sóng hài sát nhau thì đoạn phổ

tương ứng thể hiện các đường gợn sóng như

cấu trúc hài của nó. Cepstrum của tín hiệu này

sẽ thể hiện bằng một chóp cao tại tần số 1/F0.

Có rất nhiều thuật toán và phương thức ước

lượng cao độ. Các thuật toán ước lượng pitch

cố gắng để định vị chu kỳ trong miền thời

gian của tín hiệu tiếng nói hoặc miền tần số

của tín hiệu âm thanh. Các cách tính Pitch hầu

hết dựa vào phương pháp tự tương quan hoặc

biến thể của nó.

Cepstrum được định nghĩa là một biến đổi

Fourier rời rạc ngược về cường độ với tín

hiệu vào s(n).

Ước lượng Pitch bằng phương pháp tự

tương quan

Cepstrum được biểu diễn là:

Cepstrum(d) = IFFT(log₁₀| FFT(s(n)) |)

[2]

Ước lượng Pitch thường sử dụng phương

pháp tự tương quan. Ý nghĩa của sự tương

quan là đo độ tương tự giữa 2 tín hiệu, và sự

tự tương quan đo độ tương tự giữa chính nó

và biến đổi theo thời gian của chính nó.

Phương thức tự tương quan trong một khoảng

thời gian ngắn của một đoạn s(m), của một tín

hiệu rời rạc theo thời gian s(n) có thể được

biểu diễn là:

d là miền tần số của tín hiệu cepstrum. Các hệ

số của chỉ số trên miền thời gian là các thành

phần tuần hoàn của tín hiệu gốc. Thông tin

cao độ được trích ra bởi vì một tín hiệu âm

thanh không chỉ chứa các thành phần phổ có

tần số cơ bản mà còn chứa các hài. Cepstrum

thu được có cấu trúc lặp lại theo cường độ

phổ. Miền tần số thấp của cepstrum thể hiện

dạng vocal tract của hệ thống tiếng nói con

người. Tần số cao của cepstrum mô tả thông

tin kích thích trong tiếng nói – pitch.

N −1−k

r(k) =

s(m)s(m + k)

∑

m=0

[1]

k là độ trễ và N là độ dài đoạn, s(m) = 0 ngoài

miền (0 ≤ m ≤N −1)

Hình 2 thể hiện cường độ phổ và cepstrum

tương ứng với đoạn tiếng nói trong hình 1.

Giá trị tại Cepstrum(0), được bỏ đi để thu

được giải động tốt hơn. Đỉnh nhô lên tại tần

số 82 biểu thị chu kỳ cao độ. Tần số này

tương ứng với tỷ lệ mẫu của tín hiệu gốc,

8000Hz. Vì vậy tần số 82 thể hiện tần số cao

độ 8000/82 = 97.2 Hz.

Cấu trúc quan trọng trong miền tần số

frequency thấp, từ 1 tới 16 miêu tả thông tin

vocal tract.

Hình 1: Dạng sóng và tự tương quan trên miền

thời gian của một đoạn tiếng nói ngắn

Với âm hữu thanh, phép phân tích Cepstral

của một đoạn tiếng nói ngắn sẽ tạo ra một

đỉnh của chu kỳ cao độ, nhưng đối với những

âm vô thanh thì không. Phép phân tích

Cepstral có thể được sử dụng cho đoạn âm

thanh là hữu thanh hay vô thanh để xác định

chu kỳ cao độ, 1/F0 nếu là đoạn hữu thanh.

Hình 1 thể hiện một đoạn âm thanh ngắn và

tính tự tương quan của đoạn đó. Chu kỳ cao

độ được theo dõi trên khoảng 80 mẫu. Đỉnh

nhô lên trong sóng tự tương quan biểu thị

điều này. Giá trị cực đại để xuất hiện quá

trình tự tương quan là ở mức trễ 0. Một giá trị

Phùng Thị Thu Hiền và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 33 - 38

Mô phỏng lại quá trình tạo âm của cơ quan

phát âm.

Cường độ log phổ của hai tín hiệu s1 và s2 là

sự tổ hợp tuyến tính của cường độ phổ log

như được thể hiện trong biểu thức 3:

log₁₀(|DFT[s1*s2](k)|) = log₁₀(|s1(k)|) +log₁₀(|s2(k)|) [3]

Giả sử rằng S1 và S2 là những phần tách rời

của phổ và quan sát cường độ log phổ của 2

tín hiệu chập S1 và S2 ở trên, DFT có thể

được tính toán để thu được sự mô tả các tần

số riêng biệt theo log₁₀(|s1(k)|) và

log₁₀(|s2(k)|). Tín hiệu chuyển đổi được miêu

tả

trong

miền

tần

số

vì

vậy

Hình 2: Cường độ Log của DFT và tần số

Cepstrum của đoạn tiếng nói trong hình 1

log10(|DFT[s1*s2](k)|) được chuyển đổi sang

miền tần số dubbed, quá trình chuyển đổi này

được gọi là phân tích cepstral và phổ thu

được được gọi là cepstrum.

Sử dụng đặc trưng đường bao phổ MFCC

Tần số cảm thụ có nghĩa

Tai của con người nhận biết được những âm

thanh có tần số thấp (<1kHz) tốt hơn những

âm thanh có tần số cao. Vì vậy điều quan

trọng là cần làm nổi bật lên những âm thanh

có tần số thấp hơn là tần số cao.

Xử lý Cepstral theo thang đo tần số Mel

Các đặc trưng của Mel Cepstral rất thành

công trong các ứng dụng xử lý tiếng nói và

phục hồi âm nhạc với độ chính xác cao. Các

đặc trưng này tạo sự uyển chuyển của cường

độ phổ của những đoạn tín hiệu âm thanh, vì

vậy nó là công cụ mạnh khi có những thay

đổi nhỏ trong giai điệu hoặc kiểu phối nhạc.

MFCC có nhiều đặc trưng vượt trội khi sử

dụng để nhận dạng tiếng nói theo thời gian.

Mỗi bước của quá trình tạo các đặc trưng

MFCC được thực hiện bằng hệ thống cảm

thụ âm thanh của con người. Tức là những gì

không liên quan có thể bỏ đi khỏi cơ sở dữ

liệu gốc dựa trên quá trình cảm thụ âm thanh

dạng sóng của con người, và tiếp theo là yêu

cầu giảm kích thước dữ liệu và tăng tốc độ

tính toán.

Dải thông của tín hiệu tiếng nói là khoảng

10kHz. Không có thành phần tần số nào tồn

tại dưới 50kHz. Tần số tiếng nói là dưới

3kHz, cao hơn các thành phần tần số chính

liên quan đến người nói, âm nhạc, dụng cụ âm

thanh hoặc hiệu ứng. Formants cũng là thông

tin quan trọng. Tần số formants của âm hữu

thanh được tìm thấy dưới 5kHz trong khi của

âm vô thanh biến mất.

Hình 3: Cường độ âm hữu thanh và vô thanh

A: Cường độ của tín hiệu âm vô thanh

B: Cường độ của tín hiệu âm hữu thanh

Phép phân tích Cepstral

Quá trình lọc theo thang Mel Cepstral:

Theo Beth Logan, MFCC gồm 5 bước:

1. Chia tín hiệu thành các khung

2. Với mỗi khung, ta thu được biên độ phổ.

3. Lấy log của biên độ

Cepstral là một phương pháp để trích chọn

đặc trưng âm thanh. Trích chọn tham số đặc

trưng âm thanh dựa trên hai cơ chế:

4. Chuyển đổi sang thang Mel

Mô phỏng lại quá trình cảm nhận âm thanh

của tai người.

5. Thực hiện biến đổi Cosine rời rạc.

Phùng Thị Thu Hiền và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 33 - 38

Một phương pháp để chuyển đổi sang thang

mel là sử dụng băng lọc. Khoảng cách của

băng lọc được định nghĩa bởi một hằng số tần

số mel theo thời gian. Băng lọc này được áp

dụng trong miền tần số, nó có thể xem như

các điểm thu được của bộ lọc chính. Với các

khung nhỏ tốt nhất là sử dụng các bộ lọc dạng

tam giác hoặc thậm chí hình chữ nhật vì độ

phân giải là quá thấp trong miền tần số thấp.

Hình 4: Quá trình tạo các đặc tính MFCC

Quan sát quá trình trên ta thấy, âm thanh

được chia thành những khung có độ dài cố

định. Mục đích là để lấy mẫu những đoạn tín

hiệu nhỏ (theo lý thuyết là ổn định). Hàm cửa

sổ bỏ đi những hiệu ứng phụ và vector đặc

trưng cepstral được thực hiện trên mỗi khung

cửa sổ. Biến đổi Fourier rời rạc của mỗi

khung được tính toán và lấy logarithm biên

độ phổ. Thông tin về pha bị bỏ qua do biên độ

phổ là quan trọng hơn pha. Thực hiện lấy

logarithm biên độ phổ do âm lượng của tín

hiệu là xấp xỉ logarith. Tiếp theo biến đổi phổ

theo thang Mel. Từ kết quả này, trong vector

Mel – spectral của các thành phần tương quan

cao, bước cuối cùng là thực hiện biến đổi

cosine rời rạc để tổng hợp vector phổ Mel để

tương quan lại các thành phần này

Hình 5: Băng lọc khoảng cách theo tần số Mel

Mỗi bộ lọc trong băng lọc được nhân với phổ

tín hiệu vì vậy chỉ có một giá trị đơn của

cường độ trên bộ lọc được trả lại. Điều này có

thể đạt được qua các tính toán của ma trận

đơn. Kết quả là tổng của biên độ trong dải lọc

và vì vậy làm giảm độ chính xác tới mức tai

của con người.

Độ lệch tần số Mel

Độ lệch tần số Mel làm nhẵn phổ và làm nổi

lên các tần số cảm thụ có nghĩa. Biến đổi

Fourier lên tín hiệu qua bộ lọc thông dải để

làm đơn giản phổ mà không làm mất dữ liệu.

Điều này được thực hiện bằng cách tập hợp

các thành phần phổ thành một dải tần số. Phổ

được làm đơn giản hóa do sử dụng một giàn

bộ lọc để tách phổ thành các kênh. Các bộ lọc

được đặt cách đều nhau trên thang Mel và lấy

logarit trên thang tần số, các kênh có tần số

thấp là không gian tuyến tính trong khi các

kênh có tần số cao là không gian logarit.

Hình 6: Phổ sau khi lọc theo thang Mel

Quá trình độ lệch tần số mel được thực hiện

theo ba bước sau:

Tai người không cảm nhận sự thay đổi tần số

của tiếng nói tuyến tính mà theo thang mel.

Thang tần số Mel tuyến tính ở tần số dưới

1kHz và logarit ở tần số cao hơn 1kHz. Ta

chọn tần số 1kHz, 40 dB trên ngưỡng nghe

1000 Mel. Do đó công thức gần đúng biểu

diễn quan hệ tần số ở thang mel và thang

tuyến tính như sau:

1. Cố định vùng giá trị dưới mỗi bộ lọc và

đôi khi đưa thang về 1. Đặt M = số băng lọc

yêu cầu

2. Phân bố đều trên thang tần số Mel

i's

trên thang

3. Chuyển đổi từ Hz sang

tuyến tính. Mối quan hệ giữa mel và frq được

cho bởi công thức:

(5)

(4)

m=ln(1+f/700)*1000/ln(1+1000/700)

Phùng Thị Thu Hiền và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 33 - 38

KẾT QUẢ THỰC NGHIỆM

Sử dụng F0

Giống như Beth Logan [8], phân lớp bằng

cách phân hệ số cepstral thành 16 cụm theo

thuật toán K-means chuẩn. Sử dụng khoảng

cách Euclidean để tính toán độ tương tự.

Chuẩn bị dữ liệu

Dữ liệu bao gồm 20 bài hát thiếu nhi nổi tiếng

thế giới http://140.114.76.148/jang2/dataSet/

childSong4public/QBSH-corpus/.

Kết quả thực nghiệm và đánh giá

Trong cả 2 chương trình thử nghiệm, kết quả

nhận dạng đúng cuối cùng sau 20 lần thử

nghiệm đều là 100%. Kết quả này cao hơn kết

quả đã công bố trong [8] và [4] dù dùng cùng

thuật toán. Lý do có thể do chương trình

demo mới thử nghiệm trên bộ cơ sở dữ liệu

rất nhỏ. Hơn nữa độ dài âm thanh đầu vào

(trích 1 đoạn từ file âm thanh cần tìm kiếm)

đủ lớn (so với âm thanh tìm kiếm) trong

chương trình thử nghiệm 1, độ dài âm thanh

đầu vào và âm thanh cần tìm kiếm đều là cả

bài hát trong chương trình thử nghiệm 2. Tỷ

lệ nhận dạng sẽ giảm xuống khi dùng cơ sở

dữ liệu lớn hơn (đặc biệt khi trong cơ sở dữ

liệu có các bài hát có những phần tương tự

nhau), tỷ lệ nhận dạng và tìm kiếm đúng cũng

sẽ giảm xuống khi độ dài mẫu âm thanh đầu

vào là nhỏ.

Trong các cấu trúc file âm thanh thì MIDI là

định dạng file đơn giản, kích cỡ nhỏ gọn

nhưng vẫn biểu diễn được giai điệu âm

nhạc.Trong bước huấn luyện, chương trình sử

dụng 20 bản nhạc định dạng MIDI. Khi tìm

kiếm chương trình thử nghiệm trên 20 file âm

thanh PCM Wave tần số lấy mẫu 8 KHz, mã

hóa 8 bít / mẫu, thu từ các điệu ngân nga

không lời (humming) hoặc các đoạn hát

không nhạc (singing) với giai điệu tương ứng

với 45 bản nhạc MIDI đã huấn luyện.

Các tham số thực nghiệm

Cao độ Pitch được tính theo phương pháp tự

tương quan ACF (AutoCorrelation Function)

với các tham số: kích cỡ khung là 256 ms,

không chồng lấp. Sau khi tính Pitch bằng hàm

ACF, pitch được làm trơn bằng lọc trung vị.

Phương pháp phân lớp sử dụng thuật toán thời

gian động DTW tiến hành so sánh chuỗi Pitch

đầu vào cần tìm kiếm tính từ file Wave với lần

lượt các chuỗi Pitch của các file MIDI trong cơ

sở dữ liệu. Thuật toán thời gian động cho phép

so sánh 2 chuỗi Pitch có độ dài khác nhau với

sai số nhỏ nhất. Độ tương tự của 2 chuỗi pitch

sau đó được tính toán bằng khoảng cách Euclid

để tìm ra chuỗi phù hợp nhất.

Về mặt thời gian, chương trình 1 thực hiện

huấn luyện và sau đó tìm kiếm hết ~ 4 s với

một bài hát, chương trình 2 thực hiện tìm

kiếm cho mỗi file Wave trong khoảng 0.2 s

với điều kiện đã huấn luyện trước.

Sử dụng MFCC

Chuẩn bị dữ liệu

Vẫn sử dụng dữ liệu trên nhưng được lưu ở

định dạng PCM wave, tần số lấy mẫu 44

KHz, mã hóa 16 bit trên một mẫu. Mỗi bài

hát được trích ra một đoạn ngắn < 5 s sử dụng

làm mẫu tìm kiếm.

Hình 7: Kết quả chạy chương trình

Các tham số thực nghiệm

Với thử nghiệm trên cả hai phương pháp đều

cho kết quả tốt. Tuy nhiên, phương pháp

MFCC tốt hơn khi dữ liệu được trích ra từ

chính bài hát của tác giả. Còn phương pháp

cao độ pitch có thể nhận diện được khi đoạn

dữ liệu tìm kiếm có thể là một tiếng sáo, tiếng

nhạc hoặc giai điệu của bài hát.

Đặc trưng MFCC được cài đặt với các tham

số sau : Kích cỡ khung là 512 ms, không sử

dụng khung chồng lấp, số bộ lọc trong dãy

băng lọc Mel là 20, số hệ số Ceptral là 12,

không sử dụng các hệ số đạo hàm Delta, kết

hợp các hệ số MFCC với 1 hệ số năng lượng.

Phùng Thị Thu Hiền và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 33 - 38

nội dung”, Luận văn thạc sỹ Công nghệ thông tin,

Đại học Thái Nguyên, 12/2009.

Do đó, với các ứng dụng yêu cầu độ chính xác

cao mà dữ liệu nhỏ hơn ta có thể áp dụng

phương pháp MFCC rất tốt còn trong trường

hợp khi bộ dữ liệu lớn, mà đoạn dữ liệu tìm

kiếm có thể chỉ là một đoạn là giai điệu của bài

hát ta có thể áp dụng phương pháp cao độ Pitch.

[2]. Phùng Thị Thu Hiền, Thái Quang Vinh,

Phùng Trung Nghĩa, Lê Tuấn Anh (2009), “Tìm

kiếm âm nhạc theo nội dung sử dụng đặc trưng

tần số cơ bản F0 và giải thuật thời gian động

DTW”, Tạp chí Khoa học & Công nghệ ISSN,

1859 – 2171, T55 – 59.

KẾT LUẬN

[3]. Beth Logan and Ariel Salomon (2002), “A

Music Similarity Function Based on Signal

Analysis”, Cambridge Research Laboratory.

[4]. S.Blackburn and D. De Roure (1998), “A tool

for content based navigation of music”, in ACM

Multimedia.

[5]. R. Mc Nab, L. Smith, I. Witten, C.Henderson,

and S.Cunningham (1996), “Towards the digital

music library: Tune retrieval from acoustic input,”

in Digital Libraries, pp.11-18

Để kết quả thực nghiệm chính xác hơn, cần

xây dựng một cơ sở dữ liệu âm nhạc đủ lớn

để thử nghiệm. Từ đó sẽ đánh giá được độ

chính xác, hiệu quả của các phương pháp tìm

kiếm và có thể đề xuất các phương pháp cải

tiến thao tác trích đặc trưng và phân lớp của

hệ thống tìm kiếm.

Hướng nghiên cứu tiếp theo sẽ là tìm hiểu sâu

hơn về các phương pháp phân lớp dữ liệu như

mạng Neural, giải thuật di truyền GA, mô

hình Markov ẩn HMM,…

[6]. Beth Logan and Stephen Chu (2000), “Music

Summarization Using Key Phrases”, Cambridge

Research Laboratories.

TÀI LIỆU THAM KHẢO

[7]. J.T. Foote (1997), “Content-based retrieval

of Music and Audio,” in SPIE, p.p 138- 147

[1]. Phùng Thị Thu Hiền, “Trích chọn đặc trưng

âm thanh trong bài toán tìm kiếm âm nhạc theo

SUMMARY

COMPARING TWO METHOD: SPECTRAL ENVELOPE FEATURE (MFCC)

AND PITCH IN CONTEND – BASED MUSIC RETRIEVAL

Phung Thi Thu Hien^1*, Doan Xuan Ngoc², Phung Trung Nghia³

¹College of Technology – TNU

²Department of Tax – Thai Nguyen province

³College of Information Communication and Technology

In state of the art approaches, feature vectors of music signal are built based on their physical

characteristics as volume, energy, and spectrum. There are many methods to extract feature in

contend – based music retrieval. Spectral Envelope Feature and Pitch method are Two popular

methods. This paper presens and compares these methods.

Key words: Feature Vector, Mel Cepstral, K-means, F0, pitch, DTW.

Phản biện khoa học: TS. Vũ Việt Vũ – Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên

Tel: 0986060545; Email: pthientng@gmail.com

6 trang baolam 09/05/2022 4820

Download

Bạn đang xem tài liệu "So sánh hai phương pháp trích chọn đặc trưng âm thanh: đường bao phổ (MFCC) và cao độ pitch trong việc tìm kiếm âm nhạc theo nội dung", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

so_sanh_hai_phuong_phap_trich_chon_dac_trung_am_thanh_duong.pdf