Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ

TẠP CHÍ KHOA HỌC SỐ 8/2016  
105  
MỘT TIẾP CẬN ĐÁNH GIÁ ĐỘ TRÙNG LẶP  
VĂN BẢN SỬ DỤNG TRỌNG SỐ MỜ  
1
Đꢀ Nam Tiꢁn1( ), Khiꢁu Văn Bꢂng1, Nguyꢃn Tu Trung1,  
Trꢄn Thành Trung2, Nguyꢃn Huy Đꢅc3  
1Viꢀn Công nghꢀ thông tin, Viꢀn Hàn lâm Khoa hꢁc và Công nghꢀ Viꢀt Nam  
2Trưꢂng Đꢃi hꢁc Sư phꢃm Hà nꢄi 2  
3Trưꢂng Cao ñꢅng Sư phꢃm Trung Ương  
Tóm tꢆt: Trùng lꢇp nꢄi dung văn bꢈn là vꢉn ñꢊ phꢋ biꢌn tꢍ các trang báo, trang tin ñꢌn  
các tác phꢎm. Viꢀc phát hiꢀn trùng lꢇp là rꢉt cꢏn thiꢌt. Bꢈn chꢉt là kiꢐm tra sꢑ tương tꢑ  
giꢒa các tài liꢀu. Tuy nhiên, ñây là bài toán phꢓc tꢃp và ñang ñưꢔc quan tâm nghiên cꢓu.  
Hiꢀn nay, có nhiꢊu phương pháp ñưꢔc nghiên cꢓu ñꢐ giꢈi quyꢌt vꢉn ñꢊ này. Trong bài  
báo này, chúng tôi ñꢊ xuꢉt mꢄt cꢈi tiꢌn ñꢄ ño tương tꢑ dꢑa trên logic mꢂ và ꢓng dꢕng  
trong vꢉn ñꢊ phát hiꢀn trùng lꢇp nꢄi dung bài báo.  
Tꢍ khoá: Văn bꢈn, phát hiꢀn trùng lꢇp, ñꢄ tương tꢑ.  
1. ĐꢆT VꢇN Đꢈ  
Trùng lꢀp nꢁi dung văn bꢂn là hiꢃn tưꢄng phꢅ biꢆn trong ñꢇi sꢈng. Vì nhiꢉu nguyên  
nhân, các văn bꢂn thưꢇng bꢊ sao chép, trích dꢋn. Đây là lí do mà các văn bꢂn có thꢌ tìm  
ñưꢄc tꢍ nhiꢉu nguꢎn khác nhau như các trang báo ñiꢃn tꢏ. Vì nhꢐng lí do khác nhau, nhiꢉu  
khi chúng ta muꢈn tìm và phát hiꢃn sꢑ trùng lꢀp giꢐa các văn bꢂn. Ví dꢒ liên quan ñꢆn vꢓn  
ñꢉ tác quyꢉn, tác giꢂ muꢈn kiꢌm tra xem nꢁi dung tác phꢔm cꢕa hꢖ có bꢊ sꢏ dꢒng dꢒng lꢗi  
mꢁt cách trái phép hay không. Vꢓn ñꢉ ñꢗo nhꢗc, ñꢗo bài hát, tác phꢔm văn hꢖc... hiꢃn ñang  
khiꢆn giꢘi chuyên môn bꢙc xúc. Đꢈi vꢘi các hꢃ thꢈng lưu trꢐ tài liꢃu, viꢃc lưu các văn bꢂn  
có ñꢁ trùng lꢀp cao chꢚ gây lãng phí và tꢈn tài nguyên. Vꢘi các máy tìm kiꢆm, khi thu thꢛp  
dꢐ liꢃu tꢍ Internet, nꢆu ñánh giá tꢈt ñꢁ trùng lꢀp cꢕa dꢐ liꢃu mꢘi so vꢘi các tài liꢃu có trong  
kho dꢐ liꢃu sꢜ tránh ñưꢄc viꢃc tiꢆp tꢒc tꢂi thêm và lưu trꢐ mꢁt dꢐ liꢃu mꢘi trùng lꢀp vào  
kho dꢐ liꢃu... Vì vꢛy, vꢓn ñꢉ phát hiꢃn trùng lꢀp hiꢃn ñang ñưꢄc quan tâm.  
(1) Nhꢛn bài ngày 11.8.2016; gꢏi phꢂn biꢃn và duyꢃt ñăng ngày 15.9.2016  
Liên hꢃ tác giꢂ: Đꢝ Nam Tiꢆn; Email: tiendonam@gmail.com  
106  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ Hꢀ NỘI  
Phát hiꢃn trùng lꢀp là bài toán phꢙc tꢗp vì các văn bꢂn thưꢇng không bꢊ sao chép toàn  
phꢞn mà chꢚ mꢁt phꢞn có thꢌ ít, có thꢌ nhiꢉu. Các phꢞn bꢊ sao chép có thꢌ bꢊ thay ñꢅi và  
nꢟm ꢠ vꢊ trí khác nhau trong văn sao chép. Hiꢃn tꢗi, có nhiꢉu kĩ thuꢛt phát hiꢃn trùng lꢀp  
khác nhau bao gꢎm: Shingling[1], IꢡMatch[2], Phép chiꢆu ngꢋu nhiên, SpotSigs, Sꢑ tương  
tꢑ giꢐa hai tài liꢃu...  
Có thꢌ thꢓy vꢓn ñꢉ phát hiꢃn trùng lꢀp thꢑc chꢓt là viꢃc tính toán ñꢁ tương tꢑ trong nꢁi  
dung cꢕa văn bꢂn cꢞn so sánh vꢘi các văn bꢂn có sꢢn trong kho dꢐ liꢃu (Corpus). Đꢁ tương  
tꢑ cꢕa văn bꢂn ñưꢄc xác ñꢊnh dꢑa trên các chꢚ sꢈ như:  
Đꢁ tương tꢑ vꢉ ngꢐ nghĩa cꢕa các văn bꢂn: Tꢍ khoá, TF ꢡ IDF;  
Đꢁ tương tꢑ vꢉ câu văn, ñoꢗn văn;  
Đꢁ tương tꢑ vꢉ ngꢐ pháp cꢕa văn bꢂn: Cú pháp câu, tꢍ loꢗi,...  
Đꢁ tương tꢑ vꢉ các thꢣ HTML cꢕa các trang web;  
Viꢃc sꢏ dꢒng mꢁt tiêu chí ñꢌ ñánh giá ñꢁ tương tꢑ cꢕa các văn bꢂn trong kho văn bꢂn  
ngày càng trꢠ nên thiꢆu hiꢃu quꢂ do ngưꢇi dùng Internet và các công cꢒ sao chép nꢁi dung  
ngày càng thông minh hơn. Do ñó, ngày càng có nhiꢉu nghiên cꢙu tꢛp trung vào viꢃc kꢆt  
hꢄp các tiêu chí ñánh giá ñꢁ tương tꢑ vꢘi nhau ñꢌ tꢍ ñó làm tăng ñꢁ chính xác cꢕa các  
công cꢒ ñánh giá ñꢁ tương tꢑ văn bꢂn, phát hiꢃn trùng lꢀp, máy tìm kiꢆm,...  
Trong [4], Muneer và cꢁng sꢑ ñã ñꢉ xuꢓt thuꢛt toán cho viꢃc thiꢆt lꢛp các cꢒm trang  
web trùng lꢀp. Ngoài ra, Fresno và cꢁng sꢑ ñã ñꢉ xuꢓt hàm trꢖng sꢈ FCC là hꢃ mꢇ cho viꢃc  
gán các trꢖng sꢈ ñꢀc trưng và sꢑ kꢆt hꢄp cꢕa chúng [5][3].  
Hiꢃn nay, trong nưꢘc cũng ñã có mꢁt sꢈ công trình nghiên cꢙu vꢉ viꢃc phát hiꢃn nꢁi  
dung trùng lꢀp trong kho văn bꢂn tiꢆng Viꢃt [9], [6], [8], các nghiên cꢙu cho thꢓy viꢃc kꢆt  
hꢄp các tiêu chí ñánh giá nꢁi dung văn bꢂn ñꢌ phát hiꢃn sꢑ trùng lꢀp trong kho văn bꢂn  
tiꢆng Viꢃt làm tăng ñꢁ chính xác trong viꢃc ñánh giá cꢕa các thuꢛt toán. Tuy nhiên, các  
nghiên cꢙu cũng cho thꢓy vꢋn cꢞn phꢂi nghiên cꢙu thêm ñꢌ cꢂi tiꢆn, tꢈi ưu hoá viꢃc kꢆt  
hꢄp các tiêu chí ñánh giá ñꢌ nâng cao ñꢁ chính xác cꢕa viꢃc phát hiꢃn trùng lꢀp.  
Bài báo này ñꢉ xuꢓt cꢂi tiꢆn ñánh giá ñꢁ tương tꢑ giꢐa hai văn bꢂn tiꢆng Viꢃt.Các phꢞn  
còn lꢗi cꢕa bài báo này ñưꢄc trình bày như sau. Phꢞn 2 trình bày hꢃ thꢈng tra cꢙu văn bꢂn  
nói chung và ñô ño tương tꢑ giꢐa hai văn bꢂn. Phꢞn 3 trình bày ñꢁ ño tương tꢑ mꢘi cꢂi tiꢆn  
tꢍ ñꢁ ño ñã có sꢏ dꢒng logic mꢇ. Mꢁt sꢈ thꢏ nghiꢃm ñưꢄc trình bày trong phꢞn 4. Phꢞn 5  
là kꢆt luꢛn bài báo.  
2. Hꢉ THꢊNG TRA CꢋU VĂN BꢌN TRÙNG LꢆP  
Trong [6] ñưa ra mꢁt mô hình hꢃ thꢈng tra cꢙu văn bꢂn trùng lꢀp. Chương trình thꢑc  
hiꢃn kiꢌm tra mꢁt bài báo ñiꢃn tꢏ ñưꢄc thu thꢛp vꢉ xem có giꢈng/gꢞn giꢈng vꢘi các bài ñã  
TẠP CHÍ KHOA HỌC SỐ 8/2016  
107  
ñưꢄc thu thꢛp trưꢘc ñó hay không. Dꢐ liꢃu ñưꢄc lꢓy tꢍ các bài báo ñiꢃn tꢏ ñưꢄc viꢆt bꢟng  
Tiꢆng Viꢃt.  
Hình 1. Mô hình thꢖ nghiꢀm vꢉn ñꢊ phát hiꢀn trùng lꢇp nꢄi dung các bài báo [6].  
Các bưꢘc thꢑc hiꢃn như sau:  
Bưꢘc 1: Thu thꢛp các bài báo ñiꢃn tꢏ  
Bưꢘc 2: Lꢓy nꢁi dung cꢕa các bài báo ñã ñưꢄc thu thꢛp và loꢗi bꢤ nhiꢥu.  
Bưꢘc 3: Thꢑc hiꢃn shingling cho mꢝi tài liꢃu.  
Bưꢘc 4: Lꢓy dꢓu vân cho mꢝi tài liꢃu.  
Bưꢘc 5: So sánh và cho ra kꢆt quꢂ.  
3. Đꢍ ĐO TƯƠNG Tꢎ  
Hình 2. Mô hình không gian vector cho văn bꢈn [7].  
Văn bꢂn thưꢇng ñưꢄc biꢌu diꢥn dưꢘi dꢗng vector dꢑa theo mô hình tꢞn suꢓt [7] mà  
tiêu biꢌu là các phương pháp dꢑa trên tꢞn sꢈ (TF) và nghꢊch ñꢂo tꢞn sꢈ (IDF). Hình 2 là ví  
dꢒ trong trưꢇng hꢄp biꢌu diꢥn văn bꢂn vꢘi sꢈ Token là 2. Vꢉ mꢀt tꢅng quát, sô Token rꢓt  
nhiꢉu, ví dꢒ: Tꢅng sꢈ âm tiꢆt (nꢆu dùng ñꢀc trưng âm tiꢆt), Tꢅng sꢈ tꢍ (nꢆu dùng ñꢀc  
trưng tꢍ).  
108  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ Hꢀ NỘI  
Có mꢁt sꢈ ñꢁ ño ñưꢄc sꢏ dꢒng như: ñꢁ tương tꢑ cosine (cosine similarity), hꢃ sꢈ  
Jaccard (Jaccard coeficient), khoꢂng cách Euclide(Euclideandistance), hꢃ sꢈ tương quan  
Pearson (Pearson Correlation coeficient) [7]... Trong bài báo này, chúng tôi xem xét ñꢁ ño  
khoꢂng cách Euclide ñưꢄc biꢌu diꢥn theo công thꢙc sau ñây (1):  
4. THUꢏT TOÁN PHÂN CꢐM Dꢑ LIꢉU  
Khi cơ sꢠ dꢐ liꢃu văn bꢂn rꢓt lꢘn, viꢃc tra cꢙu trên toàn bꢁ kho văn bꢂn khiꢆn tꢈc ñꢁ  
thꢑc thi rꢓt chꢛm. Vì vꢛy, ngưꢇi ta có thꢌ tiꢆn hành cꢒm kho văn bꢂn trưꢘc ñꢌ tăng tꢈc ñꢁ  
tra cꢙu. Ngoài ra, kĩ thuꢛt phân cꢒm còn ñưꢄc sꢏ dꢒng ñꢌ hꢝ trꢄ phân lꢘp kho dꢐ liꢃu  
văn bꢂn.  
Thuꢛt toán KMeans [10] bao gꢎm 4 bưꢘc, ñưꢄc trình bày như sau:  
Đꢀu vào: n ñꢈi tưꢄng xi vꢘi i = 1..n và sꢈ cꢒm c  
Đꢀu ra: Các cꢒm Cj (j = 1..c) sao cho hàm mꢒc tiêu E sau ñây ñꢗt cꢑc tiꢌu:  
(1)  
Các bưꢘc thuꢛt toán như sau:  
Bưꢁc 1: Khꢂi tꢃo  
Chꢖn k ñꢈi tưꢄng Cj (j=1..c) là tâm ban ñꢞu cꢕa c cꢒm dꢐ liꢃu ñꢞu vào (lꢑa chꢖn ngꢋu  
nhiên hoꢀc theo kinh nghiꢃm).  
Bưꢁc 2: Gán tâm cꢄm theo khoꢅng cách  
Vꢘi mꢝi ñꢈi tưꢄng xi (i = 1..n), tính khoꢂng cách cꢕa nó tꢘi mꢝi tâm Cj vꢘi j = 1..c.  
Đꢈi tưꢄng thuꢁc vꢉ cꢒm CS mà khoꢂng cách tꢍ tâm CS tương ꢙng ñꢆn ñꢈi tưꢄng ñó là  
nhꢤ nhꢓt.  
(2)  
Bưꢁc 3: Cꢆp nhꢆt tâm cꢄm  
Đꢈi vꢘi mꢝi j = 1c, cꢛp nhꢛt lꢗi tâm cꢒm Cj bꢟng cách xác ñꢊnh trung bình cꢁng cꢕa  
các vector ñꢈi tưꢄng dꢐ liꢃu ñã ñưꢄc gán vꢉ cꢒm.  
(3)  
Bưꢁc 4: Lꢇp và kiꢈm tra ñiꢉu kiꢊn dꢋng  
Lꢀp lꢗi các bưꢘc 2 và 3 cho ñꢆn khi các tâm cꢒm không thay ñꢅi giꢐa hai lꢞn lꢀp  
liên tiꢆp.  
TẠP CHÍ KHOA HỌC SỐ 8/2016  
109  
Trong ñó:  
: khoꢂng cách tꢍ x ñꢆn tâm Cj  
: thành phꢞn thꢙ k cꢕa tâm cꢒm Cj  
: thành phꢞn thꢙ k cꢕa ñꢈi tưꢄng x  
5. Đꢈ XUꢇT Đꢍ ĐO TƯƠNG Tꢎ CꢌI TIꢒN  
Hiꢃn tꢗi, các ñꢁ ño tương tꢑ ñꢉu ñánh giá các ñꢀc trưng có vai trò như nhau và chꢚ dꢑa  
vào tꢞn suꢓt ñꢌ phân biꢃt giá trꢊ ñꢀc trưng theo tꢍng văn bꢂn cꢒ thꢌ. Nꢆu chꢚ sꢏ dꢒng ñꢀc  
trưng rmꢙc âm tiꢆt – ñơn vꢊ ñꢀc trưng không có nghĩa thì không sao. Tuy nhiên, nꢆu sꢏ  
dꢒng ñꢀc trưng mꢙc tꢍ, ñiꢉu này là không hꢄp lí. Lí do là vì các tꢍ thông thưꢇng sꢜ ñưꢄc  
sꢏ dꢒng nhiꢉu hơn so vꢘi tên riêng, tên ngưꢇi, con sꢈ… nên khꢂ năng lꢀp lꢗi cao hơn rꢓt  
nhiꢉu. Hay chꢐ viꢆt tꢦt có khꢂ năng lꢀp lꢗi rꢓt thꢓp trong các văn bꢂn. Nói cách khác, xét  
vꢉ khꢂ năng lꢀp lꢗi thì các tꢍ thông thưꢇng có ꢂnh hưꢠng lꢘn nhꢓt còn các chꢐ viꢆt tꢦt ꢂnh  
hưꢠng ít nhꢓt. Như vꢛy, nꢆu chúng ta phân hꢗng ñꢀc trưng theo các mꢙc khác nhau thì có  
thꢌ ñánh giá ñꢁ tương tꢑ văn bꢂn chính xác hơn.  
Tꢍ ñây, nhóm tác giꢂ ñꢉ xuꢓt tꢛp luꢛt ñꢌ xác ñꢊnh mꢙc ñꢁ ꢂnh hưꢠng cꢕa các loꢗi ñꢀc  
trưng như sau:  
1) Nꢆu ñꢀc trưng là Tꢍ thông thưꢇng thì ꢂnh hưꢠng rꢓt lꢘn.  
2) Nꢆu ñꢀc trưng là Tên riêng thì ꢂnh hưꢠng lꢘn.  
3) Nꢆu ñꢀc trưng là Tên ngưꢇi hoꢀc tên thꢑc thꢌ thì ꢂnh hưꢠng trung bình.  
4) Nꢆu ñꢀc trưng là Phꢞn trăm hoꢀc Sꢈ thì ꢂnh hưꢠng nhꢤ.  
5) Nꢆu ñꢀc trưng là Chꢐ viꢆt tꢦt thì ꢂnh hưꢠng rꢓt nhꢤ.  
Gꢖi  
là ñꢀc trưng thꢙ i, hàm ꢂnh hưꢠng theo loꢗi ñꢀc trưng cꢕa ñꢀc trưng  
là  
. Khi này, công thꢙc ño ñꢁ tương tꢑ (1) cꢂi tiꢆn trꢠ thành (2):  
6. THꢎC NGHIꢉM  
Đꢁ ño tương tꢑ văn bꢂn ñưꢄc ꢙng dꢒng trong vꢓn ñꢉ tra cꢙu văn bꢂn trùng lꢀp. Cꢒ thꢌ,  
cơ sꢠ dꢐ liꢃu nhóm tác giꢂ sꢏ dꢒng bao gꢎm danh sách trên 500 bài báo (tên, tóm tꢦt). Vꢘi  
bài báo mꢘi, hꢃ thꢈng thꢑc hiꢃn viꢃc so sánh ñꢁ tương tꢑ cꢕa phꢞn tóm tꢦt vꢘi các bài báo  
trong cơ sꢠ dꢐ liꢃu. Tꢍ ñây, hꢃ thꢈng thꢑc hiꢃn viꢃc phân cꢒm kho văn bꢂn. Trong giai  
ñoꢗn tra cꢙu, hꢃ thꢈng ñưa ra danh sách 5 bài báo có ñꢁ tương tꢑ cao nhꢓt tꢍ các cꢒm. Hꢃ  
thꢈng ñưa ra hai cách thꢙc tìm văn bꢂn trùng lꢀp. Trưꢇng hꢄp 1, khi sꢈ lưꢄng văn bꢂn  
trong kho không quá nhiꢉu, có thꢌ duyꢃt toàn bꢁ văn bꢂn và so sánh ñꢁ tương tꢑ vꢘi văn  
110  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ Hꢀ NỘI  
bꢂn ñꢞu vào. Trưꢇng hꢄp 2, sꢈ lưꢄng văn bꢂn trong kho quá lꢘn, giai ñoꢗn tra cꢙu chia làm  
hai bưꢘc. Bưꢘc 1, hꢃ thꢈng thꢑc hiꢃn so sánh ñꢁ tương tꢑ cꢕa văn bꢂn ñꢞu vào vꢘi các cꢒm  
dꢐ liꢃu trong kho văn bꢂn. Bưꢘc 2, tꢍ các cꢒm gꢞn nhꢓt, hꢃ thꢈng so sánh văn bꢂn ñꢞu vào  
vꢘi các văn bꢂn thuꢁc cꢒm này.  
Trong thꢏ nghiꢃm cꢕa chúng tôi, ñꢌ rút trích ñưꢄc ñꢀc trưng mꢙc tꢍ và phân biꢃt loꢗi  
ñꢀc trưng như trên, chúng tôi sꢏ dꢒng công cꢒ phân tích ñoꢗn văn "vn.hus.nlp.tokenizer"  
cꢕa nhóm nghiên cꢙu TS. Lê Hꢎng Phương.  
6.1. Thꢓ nghiꢔm ño ñꢕ tương tꢖ hai văn bꢗn  
Hình 3. So sánh hai văn bꢈn khác nhau  
Hình 5. So sánh cùng mꢄt văn bꢈn  
TẠP CHÍ KHOA HỌC SỐ 8/2016  
111  
6.2. Đánh giá chꢘt lưꢙng phân cꢚm kho văn bꢗn  
Đꢌ ñánh giá chꢓt lưꢄng phân cꢒm, trong [11], các tác giꢂ ñã sꢏ dꢒng chꢚ sꢈ F(I) [13],  
tuân theo các tiêu chí vꢉ sꢑ ñꢎng nhꢓt cꢒm [11] [12], ñꢌ so sánh kꢆt quꢂ phân cꢒm cꢕa các  
thuꢛt toán. Giá trꢊ cꢕa F(I) càng nhꢤ thì ñꢁ ñꢎng nhꢓt càng cao. Chꢚ sꢈ này ñưꢄc tính  
như sau:  
(8)  
Bꢂng 1 và hình 6 thꢈng kê chꢚ sꢈ so sánh chꢓt lưꢄng phân cꢒm văn bꢂn trong các  
trưꢇng hꢄp dùng và không dùng trꢖng sꢈ mꢇ trong các trưꢇng hꢄp 3, 5, 6 và 8 cꢒm.  
Bꢈng 1. So sánh ñꢄ ñꢗng nhꢉt cꢕm  
3
5
6
8
Not Fuzzy  
Fuzzy  
0.00303  
0.0016  
0.00485  
0.00266  
0.00521  
0.00316  
0.0072  
0.00415  
Hình 6. So sánh ñꢄ ñꢗng nhꢉt cꢕm văn bꢈn  
6.3. Tra cꢅu văn bꢗn tương tꢖ  
a) Thꢌ nghiꢊm 1  
Bꢈng 1. Văn bꢈn ñꢏu vào thꢖ nghiꢀm 1  
Tên  
Tóm tꢛt  
Nghiên cꢙu hành vi xã Đánh giá hoꢗt ñꢁng vꢛn ñꢁng, tương tác xã hꢁi, trí nhꢘ không gian cꢕa  
hꢁi, trí nhꢘ và hꢖc tꢛp chuꢁt nhꢦt chꢕng Swiss trưꢘc và sau khi tiêm ketamine trưꢇng diꢥn vꢘi  
trên ñꢁng vꢛt thꢑc dꢂi liꢉu tꢍ 10 ꢡ 35 mg/kg/ngày; Xây dꢑng mô hình gây bꢃnh TTPL  
nghiꢃm ñưꢄc tiêm thuꢈc thꢑc nghiꢃm bꢟng liꢉu ketamine phù hꢄp, sau ñó ñiꢉu trꢊ bꢟng các  
gây bꢃnh tâm thꢞn phân thuꢈc chꢈng loꢗn thꢞn. Đánh giá sꢑ biꢆn ñꢅi hành vi, trí nhꢘ và hꢖc tꢛp  
liꢃt  
cꢕa ñꢁng vꢛt trưꢘc và sau khi ñiꢉu trꢊ.  
112  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ Hꢀ NỘI  
Bꢈng 2. Kꢌt quꢈ tìm kiꢌm vꢘi thꢖ nghiꢀm 1 trong cꢙ sꢙ dꢒ liꢀu.  
Tên  
Đꢕ tương tꢖ  
Nghiên cꢙu hành vi xã hꢁi, trí nhꢘ và hꢖc tꢛp trên ñꢁng vꢛt thꢑc nghiꢃm ñưꢄc  
tiêm thuꢈc gây bꢃnh tâm thꢞn phân liꢃt  
100%  
Nghiên cꢙu, ꢙng dꢒng hꢃ thꢈng thông tin ñꢊa lí (GIS) và mô hình SWAT ñꢌ dꢑ  
báo lưu lưꢄng dòng chꢂy và xói mòn ñꢓt tꢗi tiꢌu lưu vꢑc sông Ôn Lương ꢡ Hꢄp  
Thành.  
71%  
Nghiên cꢙu ꢂnh hưꢠng cꢕa mꢛt ñꢁ trꢎng ñꢆn năng suꢓt và chꢓt lưꢄng giꢈng sꢦn  
mꢘi HL2004ꢡ28 tꢗi trưꢇng Đꢗi hꢖc Nông Lâm Thái Nguyên  
71%  
70%  
70%  
Nghiên cꢙu vi sinh vꢛt ꢙng dꢒng cho sꢂn xuꢓt biogas làm tăng hiꢃu suꢓt trong  
ñiꢉu kiꢃn môi trưꢇng nưꢘc lꢄ và nưꢘc mꢀn  
Phꢞn mꢉm ôn luyꢃn A 2 và IC 3 trꢑc tuyꢆn  
b) Thꢌ nghiꢊm 2  
Bꢈng 3. Văn bꢈn ñꢏu vào thꢖ nghiꢀm 2  
Tên  
Tóm tꢛt  
Tác ñꢁng cꢕa biꢆn ñꢅi khí Tꢅng quan vꢉ tình hình hꢗn hán và các nghiên cꢙu vꢉ hꢗn hán, dꢑ  
hꢛu ñꢆn hꢗn hán khu vꢑc tính hꢗn hán theo các kꢊch bꢂn phát thꢂi khí nhà kính; Thꢏ nghiꢃm,  
Nam Trung Bꢁ Viꢃt Nam, lꢑa chꢖn chꢚ sꢈ hꢗn khí tưꢄng phù hꢄp, tꢍ ñó xác ñꢊnh mꢙc ñꢁ biꢆn  
khꢂ năng dꢑ tính và giꢂi pháp ñꢅi cꢕa hꢗn hán khu vꢑc Nam Trung Bꢁ trong quá khꢙ, xu thꢆ biꢆn  
ꢙng phó  
ñꢅi trong tương lai theo các kꢊch bꢂn phát thꢂi khí nhà kính và ñꢉ  
xuꢓt giꢂi pháp ꢙng phó.  
Bꢈng 2. Kꢌt quꢈ tìm kiꢌm vꢘi thꢖ nghiꢀm 2 trong cꢙ sꢙ dꢒ liꢀu  
Tên  
Đꢕ tương tꢖ  
Tác ñꢁng cꢕa biꢆn ñꢅi khí hꢛu ñꢆn hꢗn hán khu vꢑc Nam Trung Bꢁ Viꢃt Nam,  
khꢂ năng dꢑ tính và giꢂi pháp ꢙng phó  
100%  
Phân tích ñꢀc ñiꢌm ñꢊa hoá và thꢗch hꢖc cꢕa ñá mꢧ than và sét than trꢞm tích  
miocen khu vꢑc phía bꢦc bꢌ trꢞm tích sông Hꢎng  
71%  
70%  
Nghiên cꢙu, ꢙng dꢒng hꢃ thꢈng thông tin ñꢊa lí (GIS) và mô hình SWAT ñꢌ dꢑ  
báo lưu lưꢄng dòng chꢂy và xói mòn ñꢓt tꢗi tiꢌu lưu vꢑc sông Ôn Lương ꢡ Hꢄp  
Thành.  
Nghiên cꢙu vi sinh vꢛt ꢙng dꢒng cho sꢂn xuꢓt biogas làm tăng hiꢃu suꢓt trong  
ñiꢉu kiꢃn môi trưꢇng nưꢘc lꢄ và nưꢘc mꢀn  
70%  
70%  
Xác lꢛp cơ sꢠ khoa hꢖc phꢒc vꢒ quy hoꢗch bꢂo vꢃ môi trưꢇng huyꢃn phú lꢁc  
tꢚnh thꢍa thiên huꢆ  
TẠP CHÍ KHOA HỌC SỐ 8/2016  
113  
c) Thꢌ nghiꢊm 3  
Bꢈng 4. Văn bꢈn ñꢏu vào thꢖ nghiꢀm 3  
Tên  
Tóm tꢛt  
Nâng cao năng lꢑc Hꢃ thꢈng hoá và hoàn thiꢃn hơn nhꢐng lí luꢛn cơ bꢂn vꢉ năng lꢑc tài chính  
tài chính cꢕa các cꢕa NHTM như ñưa ra quan ñiꢌm vꢉ tài chính, năng lꢑc tài chính NHTM.  
ngân hàng thương Đꢀc biꢃt luꢛn án ñã chú trꢖng vào viꢃc phân tích cơ sꢠ ñꢌ dꢋn giꢂi ñưa ñꢆn  
mꢗi cꢅ phꢞn ꢠ Viꢃt nꢁi dung trình bày vꢉ lí luꢛn năng lꢑc tài chính cꢕa NHTM; Phân tích rõ  
Nam hiꢃn nay  
hơn cơ sꢠ và ý nghĩa cꢕa các tiêu chí ñánh giá năng lꢑc tài chính NHTM,  
ñꢎng thꢇi cách tiꢆp cꢛn khi phân tích các nhân tꢈ ꢂnh hưꢠng cũng thꢌ hiꢃn  
tính logic và hꢃ thꢈng vꢘi các giꢂi pháp; Trên cơ sꢠ nghiên cꢙu kinh  
nghiꢃm nâng cao năng lꢑc tài chính cꢕa ngân hàng mꢁt sꢈ nưꢘc trên thꢆ  
giꢘi, chꢚ ra căn nguyên chính dꢋn ñꢆn nhꢐng yꢆu kém vꢉ năng lꢑc tài chính  
ngân hàng là tình trꢗng tăng trưꢠng tín dꢒng nóng và phát triꢌn thiꢆu bꢉn  
vꢐng. Mꢀt khác, ñꢌ nâng cao năng lꢑc tài chính cꢕa các NHTM thì ngoài  
nhꢐng nꢝ lꢑc cꢕa chính các NHTM còn rꢓt cꢞn nhưng hꢝ trꢄ tꢍ phía Ngân  
hàng Trung ương và Chính Phꢕ. Đây cũng chính là nhꢐng bài hꢖc cꢞn thiꢆt  
trong viꢃc nâng cao năng lꢑc tài chính cꢕa các NHTMCP Viꢃt Nam.  
Bꢈng 2. Kꢌt quꢈ tìm kiꢌm vꢘi thꢖ nghiꢀm 1 trong cꢙ sꢙ dꢒ liꢀu  
Tên  
Đꢕ tương tꢖ  
Nâng cao năng lꢑc tài chính cꢕa các ngân hàng thương mꢗi cꢅ phꢞn ꢠ Viꢃt Nam  
hiꢃn nay  
100%  
Hoàn thiꢃn công tác lꢛp và trình bày báo cáo tài chính hꢄp nhꢓt trong các doanh  
nghiꢃp sꢂn xuꢓt thép thuꢁc Hiꢃp hꢁi Thép Viꢃt Nam  
46%  
Quꢂn trꢊ rꢕi ro tài chính cꢕa doanh nghiꢃp Viꢃt Nam  
46%  
45%  
Phân tích ñꢀc ñiꢌm ñꢊa hoá và thꢗch hꢖc cꢕa ñá mꢧ than và sét than trꢞm tích  
miocen khu vꢑc phía bꢦc bꢌ trꢞm tích sông Hꢎng  
Mꢁt thuꢛt toán phân cꢒm KꢡMeans tăng cưꢇng cho phân ñoꢗn ꢂnh ña phꢅ không  
giám sát  
45%  
7. KꢒT LUꢏN  
Trong bài báo này, chúng tôi ñã ñꢉ xuꢓt cꢂi tiꢆn ñꢁ ño tương tꢑ giꢐa hai văn bꢂn dꢑa  
trên luꢛt mꢇ. Luꢛt mꢇ ñưꢄc xây dꢑng ñꢌ sinh ra trꢖng sꢈ ꢂnh hưꢠng theo loꢗi ñꢀc trưng.  
Kꢆt quꢂ cho thꢓy ñꢁ ño cꢂi tiꢆn áp dꢒng tꢈt cho viꢃc so sánh văn bꢂn tiꢆng Viꢃt. Ngoài ra,  
chúng tôi áp dꢒng ñꢁ ño cꢂi tiꢆn trong viꢃc tìm kiꢆm văn bꢂn trùng lꢀp.  
Trong nghiên cꢙu tiꢆp theo, chúng tôi dꢑ kiꢆn phân tích nghiên cꢙu sâu hơn vꢉ vai trò,  
vꢊ trí cꢕa ñꢀc trưng trong câu ñꢌ ñưa ra mꢙc ñꢁ ꢂnh hưꢠng theo ngꢐ cꢂnh cꢒ thꢌ.  
114  
TRƯỜNG ĐẠI HỌC THỦ ĐÔ Hꢀ NỘI  
TÀI LIꢉU THAM KHꢌO  
1. A.Z. Broder, S.C. Glassman, M.S. Manasse, G. Zweig (1997), "Syntactic Clustering of the  
Web", Computer Network.  
2. E. Uyar (2009), Nearꢚduplicate news detection using name entities.  
3. M.A. Hearst (2006), "Clustering versus faceted categories for information exploration", In  
Communications of the ACM.  
4. Muneer K., Syed Farook K (2014), "An Innovative Approach for Clustering of Web Pages  
Based on Transduction", International Journal of Advanced Research in Computer Science &  
Technology IJARCST, Vol. 2, Issue 3, pp. 241ꢡ244.  
5. Xuemin Lin Chuan Xiao (2008), "Efficient similarity joins for near duplicate detection", In  
17th International conference on World Wide Web.  
6. Phꢗm Kim Hꢎng (2013), Phát hiꢀn sꢑ trùng lꢇp nꢄi dung cꢛa các bài báo, Luꢛn văn Thꢗc sĩ.  
7. Lê Mꢗnh Hùng (2012), Tra cꢓu văn bꢈn tiꢌng Viꢀt dꢑa trên kĩ thuꢜt phân cꢕm, Luꢛn văn Thꢗc  
sĩ.  
8. Dương Thăng Long, Báo cáo ñꢉ tài nghiên cꢙu: Nghiên cꢓu ñꢄ ño tương tꢑ trong văn bꢈn  
tiꢌng Viꢀt và ꢓng dꢕng ñánh giá viꢀc sao chép bài ñiꢀn tꢖ.  
9. Nguyꢥn Tuꢓn Anh (2009), Phát hiꢀn trùng lꢇp văn bꢈn và và xây dꢑng chꢝ mꢕc hiꢀu quꢈ cho  
WebCrawler, Luꢛn văn Thꢗc sĩ.  
11. Valliammal N., S.N.Geethalakshmi (2012), "Leaf Image Segmentation Based On the  
Combination of Wavelet Transform and K Means Clustering", International Journal of  
Advanced Research in Artificial Intelligence, Vol. 1, No.3.  
12. R. H. Haralick, and L. G. Shapiro (1985), "Image segmentations techniques", Computer Vision  
Graphics Image Processing 29, pp.100ꢡ132.  
13. J. Liu, and Y. H. Yang (1994), "Multiresolution color image segmentation", IEEE  
Transactions on Pattern Analysis and Machine Intelligence, vol.16, no.7, pp.689ꢡ700.  
AN APPROACH TO ASSESS DUPLICATION LEVEL OF TEXT  
USING FUZZY WEIGHT  
Abstract: Content duplication of text is a common issue of newspapers, news websites  
and publications. Duplication detecting is essential. Essence of this work is checking the  
similarity of documents. However, this is the complex problem and being interested in  
research. Presently, there are many researching methods to solve this problem. In this  
paper, we propose an improvement of similarity measure, which is based on fuzzy logic  
and applied it in duplication detecting of article content.  
Keywords: Text, duplication detecting, similarity measure  
pdf 10 trang baolam 12/05/2022 4840
Bạn đang xem tài liệu "Một tiếp cận đánh giá độ trùng lặp văn bản sử dụng trọng số mờ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfmot_tiep_can_danh_gia_do_trung_lap_van_ban_su_dung_trong_so.pdf