Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc

Download

Đỗ Thị Loan và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 89 - 95

NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG PHÂN BIỆT

TIẾNG NÓI VỚI ÂM NHẠC

Đỗ Thị Loan, Lưu Thị Liễu, Nguyễn Thị Hiền

Trường Đại học Công nghệ thông tin và Truyền thông – ĐH Thái Nguyên

TÓM TẮT

Tự động nhận dạng phân biệt tiếng nói với âm nhạc là công cụ quan trọng trong nhiều ứng dụng đa

phương tiện. Để nhận dạng phân biệt tiếng nói với âm nhạc, chúng tôi đã sử dụng ba đặc trưng: tần

suất vượt điểm không cao (HZCRR), tỷ lệ khung có năng lượng ngắn hạn thấp (LSTER), độ biến

thiên phổ (SF) và thuật toán sử dụng để huấn luyện cũng như nhận dạng là K-NN (K Nearest

Neighbor). Dữ liệu là các đoạn nhạc gồm nhiều thể loại từ nhạc không lời tới nhạc có lời (nhạc

Việt Nam, nhạc Rock, nhạc Pop, Đồng quê), các đoạn tiếng nói của giọng nam và nữ bằng tiếng

Việt. Trong bài báo này mục đích nghiên cứu ban đầu của chúng tôi chủ yếu là nhận dạng phân

biệt hai loại âm thanh: tiếng nói và âm nhạc với kết quả thu được có độ chính xác khá cao, với

tiếng nói có độ chính xác xấp xỉ 84%, âm nhạc là 92%. Trong tương lai chúng tôi mong muốn phát

triển hệ thống có khả năng nhận dạng phân biệt nhiều lớp âm thanh hơn.

Từ khóa: Phân biệt, tiếng nói, âm nhạc, nhạc Việt Nam, tiếng Việt.

GIỚI THIỆU^*

tra tín hiệu âm thanh trong khoảng thời gian

đủ ngắn (giữa 5 và 100msec), ta có thể nhận

thấy đặc điểm của nó là khá cụ thể. Tuy nhiên

trong thời gian dài, các đặc tính của tín hiệu

thay đổi để phản ánh đặc điểm của chuỗi tín

hiệu như một bài phát biểu hay một đoạn

nhạc. Trong phần này, chúng tôi đưa ra một

số nhận định về sự khác biệt giữa tiếng nói và

âm nhạc như sau:

Nhận dạng phân biệt tiếng nói với âm nhạc là

một phần trong hệ thống phân loại âm thanh

ASC (Audio Signal Classifier) [1] hay trong

hệ thống nhận dạng các khung cảnh âm thanh

CASR

(Computeral

Audio

Scence

Recognizer) [2], nhận dạng các chương trình

trên ti vi [3], [4], hay hệ thống phiên dịch nốt

nhạc AMTS [5]. Để xây dựng một hệ thống

hoàn chỉnh thì rất khó khăn vì âm thanh rất

phong phú, đa dạng và mỗi loại có những đặc

trưng riêng, sự kết hợp giữa chúng tạo nên vô

vàn các dạng âm thanh khác nhau, điều này

ảnh hưởng lớn đến việc phân loại các khung

cảnh âm thanh. Hầu hết các nghiên cứu nhận

dạng phân biệt các lớp âm thanh đều căn cứ

theo từng trường hợp mà bạn đưa về số lớp,

và một vài điều kiện ràng buộc khác. Chẳng

hạn phân loại âm thanh thành bốn lớp: âm

nhạc, tiếng nói, nhiễu, khoảng lặng [4], [6]

hoặc chỉ phân thành tiếng nói và âm nhạc

không thôi [3], [7].

- Thanh điệu: Giai điệu có ý nghĩa sự biểu

thị của dạng sóng âm thanh. Âm nhạc có xu

hướng được tạo ra từ sự đa dạng của các tần

số. Còn tiếng nói có giai điệu từ chính sắc

điệu và giọng nói của người nói.

- Chuỗi thay thế: Tiếng nói cho ta một chuỗi

các tiếng ồn, khoảng lặng xem kẽ từng đoạn

trong khi âm nhạc không có. Nói cách khác,

lời nói có tín hiệu phân phối thông qua quang

phổ ngẫu nhiên hơn so với âm nhạc.

- Băng thông: Tiếng nói thường có 90%

năng lượng tập trung ở tần số thấp hơn 4kHz

(và hạn chế đến 8kHz), trong khi âm nhạc có

thể mở rộng thông qua các giới hạn trên

khoảng 20kHz.

SỰ KHÁC NHAU GIỮA TIẾNG NÓI VÀ

ÂM NHẠC

- Phân phối: Năng lượng của tiếng nói

thường tập trung ở tần số thấp sau đó giảm rất

nhanh trong các miền tần số cao hơn. Còn tín

hiệu âm nhạc thì trải đều hơn.

Các tín hiệu âm thanh là một tín hiệu có ý

nghĩa trong khoảng thời gian ngắn. Khi kiểm

Tel: 0972998865; Email:dtloan@ictu.edu.vn

Đỗ Thị Loan và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 89 - 95

- Tần số cơ bản: với tiếng nói cụ thể, ta có

thể xác định được tần số cơ bản nhưng với âm

nhạc thì không.

- Khoảng âm điệu: Thời hạn của nguyên âm

trong tiếng nói là rất thường xuyên. Âm nhạc

thể hiện một biến thể rộng lớn hơn chiều dài

của giai điệu, không được hạn chế do quá

trình phát âm nhạc.

- Năng lượng ngắn hạn: Năng lượng của tín

hiệu tiếng nói có sự biến thiên nhiều hơn so

với tín hiệu âm nhạc.

- Tỷ lệ vượt điểm không: Tùy thuộc vào tín

hiệu âm nhạc và tiếng nói nhưng thông

thường tỷ lệ vượt điểm không của tín hiệu

tiếng nói sẽ lớn hơn tín hiệu âm nhạc.

phân bố năng lượng, chúng tôi đã lựa chọn ba

đặc trưng: Tỷ lệ tần suất vượt qua điểm không

cao HZCRR (Hight Zero Crossing Rate

Ratio), tỷ lệ khung có năng lượng ngắn hạn

thấp LSTER (Low Short Time Energy Ratio)

và độ biến thiên phổ SF (Spectrum Flux). Còn

phương pháp nhận dạng phân biệt chúng tôi

sử dụng là thuật toán K láng giêng gần nhất

K-NN (K Nearest Neighbor) [8].

Lựa chọn đặc trưng

Đặc trưng tần suất vượt qua điểm không cao

- HZCRR

LỰA CHỌN ĐẶC TRƯNG VÀ PHƯƠNG

PHÁP NHẬN DẠNG PHÂN BIỆT TIẾNG

NÓI VỚI ÂM NHẠC

Cho tới nay có khá nhiều đặc tính của tín hiệu

âm thanh để nhận dạng, phân biệt tiếng nói và

âm nhạc hay các hệ thống nhận dạng phân

loại khác nhau. Mỗi nghiên cứu đều đưa ra

một số lượng các đặc tính của tín hiệu âm

thanh và phương thức sử dụng để phân loại.

Các đặc tính của tín hiệu âm thanh thường

được chia làm hai loại chính là: các đặc tính

vật lý và các đặc tính cảm thụ âm thanh của

con người.

Hình 1: Biểu đồ tần suất vượt điểm không

của tín hiệu âm thanh

Công thức của HZCRR như sau:

N −1

HZCRR =

[sign

(ZCR_n– THL) +1

∑

2 N

n = 0

Trong đó:

Đặc tính vật lý là các đặc tính đặc trưng trong

miền tần số và đặc trưng trong miền thời gian

như: biên độ, tần số vượt điểm không ZCR,

năng lượng ngắn hạn, hệ số phổ MFCC, cặp

phổ tuyến tính LSP (Linear Spectrum Pair)

[6], độ biến thiên phổ SF.

- n là thứ tự của cửa sổ trích chọn đặc trưng

- N là độ rộng của cửa sổ trích chọn đặc trưng

- ZCR là tần suất vượt điểm không trong

khoảng ngắn theo công thức :

[sign ( x ) − sign ( x_{m −1})]

ZCR_k=

∑

Đặc tính về cảm thụ âm thanh của con người

là các đặc tính được con người cảm nhận như

nhịp điệu, độ cao của âm (Pitch), độ ngân, âm

sắc,…. Cũng như nhiều nghiên cứu trước đây,

để nhận dạng phân biệt tiếng nói với âm nhạc

nói riêng hay nhận dạng phân biệt các lớp âm

thanh khác nói chung hầu như chỉ sử dụng các

đặc trưng vật lý là đủ. Bởi vậy trong bài báo

này, chúng tôi cũng chỉ dùng các đặc trưng

liên quan tới miền tần số và miền thời gian

(đặc trưng vật lý).

2F ^{m = k − F +1}

F: độ dài khoảng ngắn - thường là 1 frame

- THL là tần suất vượt điểm không trung

bình trong cửa sổ theo công thức:

N −1

THL =

[ZCR ]

∑

n = 0

Đặc trưng năng lượng ngắn hạn của tín

hiệu - LSTER

Công thức tính LSTER như sau:

Dựa trên các phân tích, đánh giá về đặc điểm

của tín hiệu âm thanh, giữa âm nhạc và tiếng

nói về đặc điểm âm học, dải tần, đặc điểm về

N −1

LSTER =

[sign (THL − STE ) + 1]

∑

2 N

n = 0

Đỗ Thị Loan và Đtg

Trong đó:

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 89 - 95

Mahalanobis hay phương pháp đo khoảng

cách City Block.

- STE là năng lượng trong khoảng ngắn

(trong 1 frame) theo công thức:

Bài toán: Giả sử ta có một không gian đa

chiều (Y₁, Y₂,…,Y_n) và có một tập hợp các

khu vực A, B trong đó:

( x .w

STE

)

∑

k − m

- Khu vực A ta biết được sự tồn tại của các

đối tượng X_A1,X_A2, … X_Anvới X_Ai={ Y_Ai1,

Y_Ai2,…, Y_Ain}

m = k − F + 1

W là cửa sổ (có thể là chữ nhật hoặc

hamming)

- Khu vực B ta chỉ biết sự tồn tại của các

đối tượng X_B1,X_B2, … X_Bnvới X_Bi={ Y_Bi1,

Y_Bi2,…, Y_Bin}

- THL là năng lượng trung bình theo công

thức:

N−1

Có một đối tượng X_i( Y_i1, Y_i2,…, Y_in) bất kì

ta cần xác định đối tượng X_inày thuộc khu

vực A hay B.

THL =

[STE ]

∑

n=0

Đặc trưng độ biến thiên phổ - SF

Trong đó:

- K là bậc của phổ DFT.

- δ là hằng số bé (=0.01) để loại trường hợp

log(0).

Hình 3: Mô tả thuật toán K-NN

- A(n,m) là biến đổi Fourier rời rạc(DFT)

theo công thức:

Giải thuật: Trong tất cả các đối tượng đã xác

định rõ khu vực A và B, ta tìm K đối tượng

gần với X_inhất, trong K đối tượng này sẽ xác

định xem có bao nhiêu đối tượng thuộc khu

vực A, bao nhiêu đối tượng thuộc khu vực B,

khu vực nào nhiều đối tượng gần X_ihơn thì

X_icó khả năng thuộc khu vực đó.

∞

| A

x(i)w (nL − i).e

∑

(n, m )

i = −∞

Để tính khoảng cách giữa các vectơ dùng

công thức:

D(X,X’)=

THỰC HIỆN HỆ THỐNG NHẬN DẠNG

PHÂN BIỆT TIẾNG NÓI VỚI ÂM NHẠC

Hình 2. Biểu đồ histogram độ biến thiên phổ

theo không gian 3 chiều (a): music (b):speech

Hệ thống có dạng tổng quát như hình 4.

Hoạt động của hệ thống gồm hai quá trình

riêng biệt: thứ nhất là quá trình học (huấn

luyện) và thứ hai là quá trình nhận dạng phân

biệt với tín hiệu đầu vào.

Thuật toán KNN

Thuật toán K-NN [8] là phương pháp phân

loại dựa trên chỉ tiêu không gian khoảng cách.

Xác định một điểm thuộc miền nào bằng cách

tính toán dựa trên khoảng cách không gian.

Có nhiều phương pháp để tính khoảng cách

giữa các vectơ như phương pháp đo khoảng

cách Euclidean, phương pháp đo khoảng cách

Hamming, phương pháp đo khoảng cách

Quá trình huấn luyện: Tín hiệu đầu vào

được đưa vào phân tích đặc trưng. Tại đây

chúng được xử lý, tính toán và lấy ra giá trị

các đặc trưng cần trích chọn phục vụ cho việc

xây dựng hệ thống. Sau đó tới khối huấn

Đỗ Thị Loan và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 89 - 95

luyện được xử lý và lưu vào cơ sở dữ liệu

(CSDL) mẫu. Quá trình huấn luyện dùng

phương pháp học có giám sát nghĩa là chúng

ta đã biết rõ sự phân lớp trên tập dữ liệu mẫu

dùng để học, ở đây chỉ có hai lớp: tiếng nói và

âm nhạc. Các đặc trưng mẫu của từng lớp

được trích chọn lưu riêng vào CSDL.

Tuy nhiên vấn đề khi phân khung của tín hiệu

đó chính là sai số của cả phép biến đổi so với

tín hiệu gốc, do đó nên sử dụng hàm cửa sổ

để hạn chế các sai số do độ dài hữu hạn của

các tín hiệu gây ra trong các phép biến đổi.

Hàm cửa sổ thường được dùng là Hamming

được cho bởi công thức sau:

2Π n

W_n= 0.54 − 0.46 * cos(

)

N − 1

KẾT QUẢ

Cài đặt hệ thống

Chúng tôi thực hiện hệ thống nhận dạng phân

biệt với tín hiệu đầu vào là các file âm thanh

chuẩn dạng WAVE (*.wav), việc tính toán,

xử lý, phân biệt đều thực hiện dựa trên file

wave này. Như đã phân tích ở trên quá trình

huấn luyện gồm các bước cơ bản sau:

Hình 4: Mô hình tổng quát của hệ thống

Quá trình nhận dạng phân biệt: Trình tự

thực hiện cũng như trên nhưng chỉ khác là tín

hiệu sau khi được trích chọn đặc trưng sẽ

được đưa vào khối nhận dạng phân biệt. Tại

khối này chúng ta phân tích đánh giá với

CSDL mẫu đã được huấn luyện thông qua

thuật toán K-NN. Kết quả này sau đó được

chuyển tới bộ ra quyết định để xác định xem

tín hiệu hiệu đó thuộc lớp tín hiệu nào. Vectơ

đặc trưng là vectơ 3 chiều vì ta chỉ chọn 3 đặc

trưng như đã trình bày ở trên.

Hình 6: Mô hình quá trình huấn luyện

Với mỗi dãy tín hiệu âm thanh đọc được, ta

thực hiện xác định khung tín hiệu, tính các

thông số cơ bản STE, ZCR, A của dãy tín hiệu.

Giao diện cài đặt của quá trình huấn luyện:

Phân khung tín hiệu: Do tín hiệu tiếng nói

ổn định trong khoảng vài chục ms, nên khi

tiến hành các phép phân tích, biến đổi người

ta thường chia tín hiệu thành có đoạn nhỏ

khoảng 10 đến 30ms, đó được gọi là phân

khung, các khung tín hiệu liên tiếp có thể

chồng nhau khoảng ½ độ dài.

Hình 7: Giao diện huấn luyện, tạo dữ liệu mẫu

Hình 5: Phân khung tín hiệu

Đỗ Thị Loan và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 89 - 95

- Bên phải là đồ thị của tín hiệu: tại khung cửa

sổ thứ nhất là dạng tín hiệu âm thanh, tiếp theo

là năng lượng trong khoảng ngắn hạn và tần

suất vượt điểm không của tín hiệu âm thanh.

khung cửa sổ thứ 4 thể hiện đây là tiếng nói

hay âm nhạc (tiếng nói có biên độ bằng 2/3

khung còn âm nhạc có biên độ = 1/3 khung).

- Bên trái cũng là khung điều khiển mở,

chọn tín hiệu file wave. Ngoài ra còn có sự

lựa chọn tham số K (K là số phần tử thuộc lớp

đặc trưng mẫu gần với mẫu cần nhận dạng

phân biệt nhất).

- Bên trái là các điều khiển: mở file wave,

nghe thử, xác định tiếng nói hay âm nhạc, lưu

dữ liệu.

Quá trình nhận dạng:

Đánh giá

Chương trình thực hiện phân biệt tiếng nói và

âm nhạc dựa trên một tập các tín hiệu âm

thanh mẫu mà tôi sưu tầm có được : tập hợp

tiếng nói là tiếng Việt, tập hợp âm nhạc là các

thể loại nhạc không lời của một số trường

phái âm nhạc.

Tập hợp tiếng nói gồm có 1037 file là các file

phát âm các từ của tiếng Việt, mỗi file có độ

dài < 1s, có tần số lấy mẫu 16000Hz, bit rate

là 16bit/mẫu.

Hình 8: Mô hình quá trình nhận dạng

Quá trình nhận dạng có một số bước trùng

với quá trình huấn luyện như việc đọc dữ

liệu file wave, thông số cơ bản, tính các

thông số đặc trưng.

Tập hợp âm nhạc gồm có 77 file là các file

nhạc không lời của các thể loại R&B, Rock,

Country…. Mỗi file có độ dài < 30s và có

cùng tần số lấy mẫu 16000Hz, bit rate

16bit/mẫu.

Các file dữ liệu mẫu trên đều là các file âm

thanh mono (một kênh).

Qua thử nghiệm, thống kê tôi thấy chương

trình đã thực hiện việc phân biệt tiếng nói và

âm nhạc với tỉ lệ chính xác tốt với các trường

hợp tiếng nói và âm nhạc riêng biệt.

Sau đây là kết quả thu được khi thử nghiệm:

Bảng 1: Kết quả thống kê cơ sở dữ liệu

Hình 9: Giao diện nhận dạng phân biệt

Âm

Tiếng

Tương tự như giao diện huấn luyện, giao diện

nhận dạng cũng có các phần:

nhạc

nói

Giá trị trung bình của

LSTER

0.2048

0.3942

0.14599

- Bên phải là đồ thì biểu diễn của tín hiệu: tại

khung cửa sổ thứ nhất là dạng tín hiệu của âm

thanh, tiếp theo là năng lượng trong khoảng

ngắn hạn và tần suất vượt điểm không của tín

hiệu âm thanh, tuy nhiên khác với giao diện

huấn luyện, giao diện nhận dạng còn có thêm

Giá trị trung bình của

HZCRR

0.2632

0.22

Giá trị trung bình của SF 0.3885

Đỗ Thị Loan và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 89 - 95

Bảng 2: Kết quả thống kê nhận dạng với một số

lượng đầu vào là tiếng nói và âm nhạc với K=3

tế (ứng dụng tự động thu thập thông tin, đánh

giá chỉ mục cho dữ liệu đa phương tiện.

TÀILIỆU THAM KHẢO

Âm nhạc

Tiếng nói

[1]. David Gerhard, (2000), “Audio Signal

classification: an overview” , Canadian Artificical

Intelligence, 45:4-6, Winter.

[2]. Peltonen, V., (2001) “Computational

Auditory Scene Recognition”. MSc Thesis,

Tampere University.

[3]. Saunders, J., “Real-Time Discrimi-nation

of Broadcast Speech/Music”, Proc. ICASSP,

pp993-996

10838432

(92.36%)

945553

(15.56%)

Nhận dạng là âm

nhạc

897324

(7,64%)

5131722

(84.44%)

Nhận dạng là

tiếng nói

11735756

(100%)

6077275

(100%

Tổng

Bảng 3: Kết quả thống kê nhận dạng với một số

lượng đầu vào là tiếng nói và âm nhạc với K=5

[4]. Srinivasan, S., (1999), Petkovic, D.,

Poncelcon, D, “Toward robust features for

classifying audio in the CueVideo System”, Proc

7^thACM Int, Conf Multimedia, pp. 393-400.

[5]. M.D. Plumbley, S.A Abdallah, J.P. Bello,

M.F. Davies, G, Monti , M.B. Sandler (2002),

“Automatic music transcription and audio source

separation”, Cybernetics and System, 33(6):603-627.

[6]. Lu, L., Jiang, H., and Zhang, H. J., (2001),

“A robust audio classification and Segmentation

method”, in Proc. 9^thACM Int Conf Multimedia,

pp 203-211.

Âm nhạc

Tiếng nói

10878964

(92.7%)

856792

(7,3%)

11735756

(100%)

974188

(16.03%)

5103087

(83.97%)

6077275

(100%)

Nhận dạng là

âm nhạc

Nhận dạng là

tiếng nói

Tổng

KẾT LUẬN

Trong nghiên cứu này chúng tôi chủ yếu tập

trung phân tích đánh giá các đặc điểm vật lý,

đặc điểm về cảm thụ âm thanh của hai tín

hiệu: âm nhạc và tiếng nói: sau khi thử

nghiệm dùng ba đặc trưng HZCRR, LSTER,

SF với thuật toán phân loại K-NN chúng tôi

thấy kết quả thu được là khá tốt. Trong tương

lai, chúng tôi sẽ tiếp tục hoàn thiện hệ thống

sao cho có được một hệ thống hoàn chỉnh để

có thể thực hiện tự động nhận dạng phân biệt

tiếng nói với âm nhạc đem áp dụng vào thực

[7]. Scheier,

E.,

Slaney,

M.,

(1997),

“Construction and

Evaluation of a Robust

Multifeature Speech/Music Discrimination”. Proc.

ICASSP, pp1331-1334.

[8]. S. Theodoridis, K. Kontroumbas (1999),

“Pattern Recognition”, Academic Press.

Đỗ Thị Loan và Đtg

Tạp chí KHOA HỌC & CÔNG NGHỆ

112(12)/2: 89 - 95

SUMMARY

RESEARCH INTO METHOD OF DISCRIMINATION

BETWEEN SPEECH AND MUSIC

Do Thi Loan^*, Luu Thi Lieu, Nguyen Thi Hien

College of Information Communication and Technology – TNU

Automatic discrimination of speech and music is an important tool in many multimedia

applications. For the discrimination of speech and music we have used three characteristics:

HZCRR (High Zero Crossing Rate Ratio), LSTER (Low Short Time Energy Ratio), SF (Spectrum

Flux) and the algorithm for training and discrimination is K Nearest Neighbor. The data is musical

segments with different kind of music like Vietnamese music, Rock, Pop songs, country music and

speech segments of male and female voices for Vietnamese. In the article the major objective of

our research is to discriminate two audio signals: speech and music. We have got results with

rather high accuracy: about 88% for speech and 92% for music. In the future, we would like to

develop the system to classify more classes of audio signal.

Key words: Discrimination, speech, music, Vietnamese music, Vietnamese

Phản biện khoa học: TS. Phạm Đức Long – Trường Đại học CNTT & TT – ĐH Thái Nguyên

Tel: 0972998865; Email:dtloan@ictu.edu.vn

7 trang baolam 09/05/2022 4240

Download

Bạn đang xem tài liệu "Nghiên cứu phương pháp nhận dạng phân biệt tiếng nói với âm nhạc", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

nghien_cuu_phuong_phap_nhan_dang_phan_biet_tieng_noi_voi_am.pdf