Xây dựng quy trình và thuật toán để phân loại tài liệu TBT

KHOA HC - NG DNG  
XÂY DNG QUY TRÌNH VÀ THUT TOÁN  
ĐỂ PHÂN LOI TÀI LIU TBT  
ThS. NGUYỄN MINH ĐẾ (*)  
TÓM TT  
Trong bài báo này trình bày bài toán Phân loi Tài liu TBT, mà có hai công vic chính (quy  
trình phân loi và thut toán thc hiện), được xem như là một trong các thành phn cn thiết trong  
quá trình phát mt Hthông minh. Quy trình phân loi này trải qua các bước trong mt tiến trình  
xlý thng nhất và có các đặc trưng giống như của mt thuật toán. Bài báo đưa ra hai phương  
pháp để phân loi tài liu TBT, gồm có hai hướng chính: theo mô hình phân loi tài liu TBT và  
theo ni dung tài liu TBT. Mô hình ca phân loi tài liu sẽ được xây dng theo mô hình  
Taxonomy phân cp và trong vic phân cp ssdng các bng/khung phân loại cho trước.  
Phương pháp phân loi tài liu TBT theo ni dung thì thc hin theo mt quy trình xlý thng nht  
và có sdng hai kthut: mô hình N-Gram và tính trng sTF-IDF.  
Tkhóa: Chsphân loi (CSPL), mô hình Taxonomy, phân loi tài liu theo mô hình, phân  
loi tài liu theo ni dung, mô hình N-Gram, trng sTF-IDF.  
SUMMARY  
In this paper, we present the problem of TBT Document Classification, which has two major  
tasks (classification process and executive algorithm), which is considered as one of essential  
components in developing a Smart System. This classification process has steps in a unified  
process, and it has characteristics as an algorithm. This paper proposes two methods for TBT  
Document Classification, these two methods consist of two main directions: according to the model  
of TBT Document Classification; and according to the content of TBT documents. The model of  
Document Classification will be constructed in hierarchical Taxonomy model, and this hierarchy  
will be based on given classification tables/frames. The method of content-based TBT Document  
Classification is performed in a unified treatment process, with two techniques: N-Gram model;  
and TF-IDF weighting.  
Key words: Categorical Indicator (CI); Taxonomy Model; Document Classification  
according to the model; Document Classification according to the content; N-Gram model; TF-IDF  
weight.  
1. Mở đầu  
Phân loi tài liu TBT là mt trong các công vic quan trọng để phc vvà htrcho mc tiêu  
3 của đề tài “Nghiên cu và xây dng Hhỏi đáp thông minh cho thông tin vHàng rào Kthut  
trong Thương mại (TBT) ca tnh Long An”. Mc tiêu 3 của đề tài là “Nghiên cu và xây dự  
ỏi đáp thông minh TBT Long An”, được chia ra làm các thành phn nhỏ hơn cần phi xây  
dng. Các thành phần này đều ri rạc và độc lp với nhau, nhưng có tn ti sliên kết cn thiết để  
to thành mt chnh thca hthng. Sliên kết này sẽ được tchc thành hthng có cu trúc  
tương tự như phân tán, nghĩa là cho phép có sự thiếu vng mt sthành phần bên trong nhưng hệ  
thng vn hoạt động được.  
Hthống để phân loi tài liu có hai công vic cn phi xây dng: Quy trình phân loi; Phương  
pháp htrvic phân loi. Quy trình phân loi tài liu là công vic cn thiết đầu tiên để định hình  
các bước phi thc hin. Tiếp theo, phi xây dng các hthố  
ối ưu để chdn ni  
dung thc hin và định hướng cho các chương trình máy tính thc thi. Quy trình phân loi tài liu  
thì cn phi xây dựng trước tiên. Sau đó, từ quy trình phân loại có được mi có thể xác định phương  
TP CHÍ KINH T- CÔNG NGHIP  
64  
KHOA HC - NG DNG  
pháp thc hin cth. Phương pháp thực hin chia ra làm hai loi: thcông và tin học hóa (chương  
trình máy tính).  
Chương trình máy tính cần có các thuật toán để xác định các hoạt động cn phi thc hin theo  
thtự trước sau.  
thut toán chi tiế  
ẽ được xây dng theo mô hình tthut toán tổng quát cho đến các  
ất đa cấp bc và lng ghép li, có sliên kết li vi  
nhau, và có đặc trưng riêng là các thành phần được thiết kế, xây dng qua các phiên bn khác nhau.  
Bài này trước tiên đnghmt quy trình thng nhất để phân loi tài liu TBT và có mt tiến  
trình xác định. Quy trình này có mt số các đặc tính như đặc trưng của thuật toán: Tính xác định;  
Tính hu hn; Tính kết qu; Tính phdng; Tính hình thc.  
Bài  
cũng đưa ra phương pháp phân loại tài liệu TBT cũng như các thuật toán cn thiết để  
thc hiện. Phương pháp phân loại này sẽ theo 2 hướng: Hướng theo mô hình phân loi tài liu TBT;  
Hướng theo ni dung ca tài liu TBT. Các thut toán sẽ được chia ra làm hai nhóm tương ứng để  
thc hin cho tng phương pháp phân loi phù hp.  
Phn còn li ca bài  
như sau: Phần 2, phn kế tiếp trình bày các thành phn ca phân loi  
tài liu theo mô hình cây phân cp Taxonomy; Phn 3, trình bày quy trình phân loi tài liu TBT và  
phương pháp thực hin; Phn 4, trình bày các thuật toán để phc vụ cho các phương pháp thực hin  
ca quy trình phân loi tài liu TBT; Phn 5, trình bày kết qukết lun.  
2. Các thành phn ca Phân loi tài liu theo mô hình phân cp Taxonomy  
Phân loi tài liu có thxem là vic da vào nhng du hiu giống nhau và khác nhau để phân  
chia, sp xếp các tài liu theo mt trt tnhất định.  
Khung/bng phân loi là cấu trúc có được do vic phân loại đã được thu gn hoc phn ánh vào  
mt giản đồ, bng biu (Scheme, Table) nhất định theo các nguyên tc phân loại cho trước.  
Một Taxonomy được mô tvi mt gc trên cùng là O, mi nút (gm cnút gc O) là mt thc  
thtrong thế gii thc. Gia các nút trong Taxonomy có quan h: Mt mi quan hệ đặc bit gi là  
is subclassificationof (nếu hướng liên kết tnút con lên nút cha); is superclassification of nếu  
hướng liên kết tnút cha xung nút con.  
Quan htrên có thchuyển thành hướng đối tượng tương ứng cht chẽ hơn như sau: is subclass  
of (lp con); is superclass of (lp cha).  
Hình 1. Cây phân cp lp thú dng phân cp Taxonomy  
Hình nh mt cu trúc phân cp Taxonomy. Taxonomy trên gm có nút gc/lp cha là O (lp  
thú), O có 3 lp/nút con là: Bộ linh trưởng; Bộ ăn thịt; Bguc chn. Lp/Nút Bộ linh trưởng có 1  
lp/nút con Hkh. Lp/Nút Bộ ăn thịt có 1 lp/nút con Hmèo. Lp/Nút Bguc chn có 1  
lp/nút con Hlạc đà.  
Chsca tài liu  
hiu phản ánh đặc trưng riêng của mt tài liu, bao gm mt hoc nhiề  
hiu thhin các ni dung khác nhau ca mt tài liu. Chsố này được thiết lp theo tiêu chun  
TP CHÍ KINH T- CÔNG NGHIP  
65  
KHOA HC - NG DNG  
CSPL cth, mà trong bài này sda vào chsICS hoc HS  
hiu phân loại đầy đủ thường  
được ghi mt vtrí cthể, thông thường phía trên trang tên tài liu và góc bên phải phía dưới  
ca phiếu mô tcho tài liu.  
Sau khi phân loi tài liu thì cn sp xếp tài liu mt cách khoa hc, các cách sp xếp theo như  
sau: Thi gian; Mu t; Tính cht.  
Danh mc tài liu là bng lit kê mt cách hthng tài liệu đã thu thập được. Nhvào danh  
mc này mà thc hin sp xếp, qun lý và tra cu tài liu mt cách nhanh chóng. Danh mc tài liu  
có tính cht sau: Cth; Chính xác; Cp nhật thường xuyên.  
Tài liu phải được lưu trữ vào mt vtrí nhất định để khi cn truy cp snhanh chóng,và cn  
phi làm bng lit kê mt cách hthng tài liu. Nhvào danh mc này mà có thsp xếp, qun lý  
và tra cu tài liu nhanh chóng.  
Lưu trữ điện tcó thể được sdng không chỉ để lưu trữ tài liệu điện tử (thu được bng cách  
nhp dliu hoc quét tài liệu) mà còn để tạo ra thư viện các loi tp tin khác nhau: tp tin âm  
thanh, tp tin, hình nh…  
Phn trung tâm ca hthống lưu trữ điện tử là kho lưu trữ điện tử. Kho lưu trữ điện tlà mt hệ  
thống lưu trữ có cu trúc các tài liệu điện t. Vic xây dựng kho lưu trữ điện tlà một cơ hội để làm  
sch các tài liu và khả năng nhanh chóng tìm thấy các tài liu cn thiết.  
Biên mc tài liu là mt công vic quan trng cn phi thc hin khi nhận được mt tài liu cụ  
th. Biên mc tài liu thc hin vic thu thp các thông tin tng quát quan trng ca mt tài liu:  
nhan đề (tiêu đề), tác gi, nhà xut bn/quốc gia, năm xuất bn, tóm tt... Mi thông tin trên có thể  
xem là mt vùng thông tin ca tài liu.  
Mi mt tài liu có các thông tin tổng quát đặc trưng riêng, nên tài liệu scó các vùng thông tin  
khác nhau, xét mt tài liu TBT scó 8 vùng thông tin như sau:  
i. Vùng nhan đề [tài liu] và minh xác vtrách nhim  
ii. Vùng sn phm  
iii. Vùng địa chxut bn  
iv. Vùng thi gian  
v. Vùng chi tiết vt cht tài liu  
vi. Vùng tài liu kèm theo  
vii. Vùng tóm tt  
viii. Vùng mã s/ký hiu  
Tài liệu TBT đều phi chuyn thành 2 dạng cơ bản: văn bản giy và tài liệu điện t(file dữ  
liu). đây chtrình bày mô hình lưu trữ ca tài liệu điện t(tp tin dliu). Cấu trúc lưu trữ dng  
cây thư mục có phân cp (cây Taxonomy), bao gồm các thư mc và các tp tin các tài liu.  
Mt tài liu TBT sẽ thu được 8 vùng thông tin chính như trên, nhưng trong đó có 6 thông tin  
hu dụng được sdụng để phân loi tài liu: Chuyên mc; Quc gia/Khu vực; Cơ quan/tổ chc phi  
chính phcó thm quyn trách nhim; Khung phân loi Sn phm; Sn phm; Mã ký hiu. Sáu  
thông tin này sẽ được xem là 6 lớp để phân loi tài liệu TBT. Như vậy, cây thư mục lưu trữ scó 6  
lớp tương ứng, đây Mô hình phân loi tài liu:  
i. Lp cp 0, Chuyên mc gồm có các thư mục tương ứng vi các chuyên mục được phân chia từ  
trước.  
ii. Lp cp 1, Quc gia/Khu vc gồm có các thư mục tương ứng vi các Quc gia/Khu vc. Mi  
thư mục slà mt Quc gia/Khu vc và sdng tên viết tt có 3 ký t.  
TP CHÍ KINH T- CÔNG NGHIP  
66  
KHOA HC - NG DNG  
iii. Lp cấp 2, Cơ quan/Tchc gồm có các thư mục tương ứng với các Cơ quan /Tchc. Mỗi thư  
mc slà một Cơ quan /Tchc và sdng tên viết tt chính thc của Cơ quan /Tchức đó.  
iv. Lp cp 3, Khung phân loi gồm có các thư mục tương ứng vi các Khung phân loi. Mỗi thư  
mc slà mt Khung phân loi (chyếu khung/bng HS và ICS).  
v. Lp cp 4, Sn phm gồm có các thư mục tương ứng vi các Sn phm. Mỗi thư mục slà mt  
Sn phm và sdng ký hiệu đúng theo quy định ca Khung phân loại cho trước trên.  
vi. Lp cp 5, Mã/Ský hiu là chính tp tin ca tài liu TBT. Mi tp tin scó tên chính là Mã/Số  
ký hiệu đó.  
3. Quy trình phân loi tài liệu TBT và phương pháp thực hin  
3.1  
Tài liệu TBT đa số tn ti dạng: văn bản giy; dliệu điện t(chyếu tp tin loại: văn bản  
kiểu text; văn bản kiu pdf…). Đối vi 2 dng tài liu này thì về cơ bản đều sdng quy trình xlý  
ging nhau, do đó tt ctài liệu TBT đều phải được chuyn sang dng tp tin và thc hin tiếp quy  
trình phân loi.  
Công tác biên mc và phân loi tài liu là khâu quan trng trong quy trình phân loi tài liu  
TBT. Tài liệu sau khi đã được tha nhận để đưa vào phân loại thì đều phi tri qua quá trình xlý  
chuyên môn nghip vhoàn chnh thì mới được đưa vào phục v. Mi mt tài liệu khi được bổ  
sung vào thì phải được các nhân sphtrách công tác bsung la chọn các phương pháp phù hợp  
cho nó.  
Tài liu khi bắt đầu nhp vào thì phi tri qua tt ccác khâu xử lý được quy định trước trong  
công tác biên mc và phân loạ  
này sẽ đề cập đến phương pháp xử lý thcông và  
phương pháp xlý nghip vụ được tin hc hóa (chương trình máy tính).  
Khi tài liệu được bắt đầu đưa vào quy trình thì phải qua tác vụ đầu tiên ca bphn nghip vlà  
đăng ký tổng quát, đăng ký cá bit cho tài liệu, đóng du xác nhn vào và bắt đầu tiến hành công tác  
biên mc, phân loại, lưu trữ.  
Quy trình phi thc hin qua từng bước, có tng cộng 6 bước chính. Các bước thc hin có sự  
liên tục và không được bỏ bước thc hiện. Bước thc hiện trước phi thc hin xong hoàn tt thì  
mi chuyển qua bước kế tiếp. Từng bước đều có ththc hin thcông và có shtrca phn  
mm máy tính.  
3.2 Các bước thc hin và mô tchi tiết  
Sáu bước để phân loi tài liu TBT:  
B1: Nhn tài liu TBT và thc hin vic kim tra vmt số lượng, chất lượng ca tài liu.  
B2: Đăng ký tài liệu trong Sổ đăng ký tổng quát/cá bit.  
B3: Xác định dng tài liu TBT.  
Nếu: Dng tài liệu điện t(tp tin) thì thc hin B4.  
Nếu: Dng tài liu giy thì  
o Chuyn dng tài liu sang dng tài liệu điện t(tp tin).  
o Thc hin B4.  
B4: Thc hin thtc hành chính nếu có (sao chép, đóng dấu chquyn, lp báo cáo, …)  
B5: Thc hin tác vbiên mc và phân loi tài liu  
Mô hình phân loi qua 6 lp (theo CSPL) và theo ni dung ca tài liu.  
B5.1: Mô ttài liu  
t; Mu danh mc tài liu;  
B5.2: Lập đề mc (lp danh mc tài liệu TBT đã có)  
B5.3: Phân loại (xác định CSPL)  
TP CHÍ KINH T- CÔNG NGHIP  
67  
KHOA HC - NG DNG  
B6: Lưu trữ tài liu và sp xếp theo tiêu chí thích hp.  
B6.1: Tạo thư mục (theo cu trúc CSPL, theo Mô hình lưu trữ tài liu TBT)  
B6.2: Sao chép dliu (theo cu trúc của Mô hình lưu trữ tài liu TBT)  
B6.3: Sp xếp (theo các tiêu chí)  
BKT: Kết thúc.  
Mô tchi tiết từng bước:  
B1: Nhn tài liu TBT và kim tra vmt số lượng và chất lượng, thc hin thcông.  
B2: Đăng ký tài liệu, đọ  
đề ca tài liệu để vào Sổ (SĐKTQ/SĐKCB là Bng 1 và Bng 2), có  
thdùng phn mm máy tính để htr.  
Vào SĐKTQ, mẫu sổ ở Bng 1  
Toàn btài liu nhp vào phải được ghi đầy vào Sổ ĐKTQ.  
Vào SĐKCB, mẫu sổ ở Bng 2  
Sổ ĐKCB là cung cấp thông tin cth, chi tiết vtng tài liệu đã nhập vào. Tài liu sau khi  
được đăng ký tổng quát, sẽ được đăng ký từng chi tiết vào sổ đăng ký riêng.  
B3: Xác định dng Tài liu TBT, thì vic chuyn dng tài liu sang dng tài liệu điện t(tp tin) sẽ  
thc hin thcông (có shtrca phn mm).  
B4: Thc hin thtc hành chính, thc hin thcông.  
B5: Thc hin tác vbiên mc và phân loi, gồm có 3 bước  
B5.1: Mô ttài liu TBT theo Chun biên mc mô ttài liu TBT, scó 8 vùng và có thsử  
dng phn mềm để thc hin.  
B5.2: Lp danh mc tài liu TBT, theo mu Bng 3.  
B5.3: Phân loi. Xác định CSPL cho tài liu TBT, thc hin thcông hoc nhphn mm hỗ  
trqua từng bước ca mô hình phân loi. Mô hình phân loi tài liu TBT có 6 lp nên scó 6  
khi mã/số. Như vậy, CSPL có 6 khi (Chuyên mc, Quc gia, Cơ quan/Tổ chc, Khung  
phân loi, Sn phm, Ký hiu).  
B6: Lưu trữ tài liu và sp xếp theo tiêu chí thích hp, gồm có 3 bước  
B6.1: Tạo thư mục.  
Theo mô hình phân loi tài liệu TBT thì thư mục scó 6 cp theo CSPL. Thc hin tun tcho  
CSPL ttrái sang phi, mỗi thư mục tương ứng vi tng khi ca CSPL, nếu thư mục chưa có thì  
to ra, nếu có ri thì truy xut vào trong và lp lại cho đến hết.  
Thư mục gc cha 1  
1 chứa thư mục VNM  
VNM cha MH  
MH chứa thư mục 1  
1 có chứa thư mục 67.100.10  
Thư mục 67.100.10 có cha  
tp tin G/TBT/N/VNM/78.*, có  
thể đổi du “/” thành du “-”  
hoc các du khác.  
Hình 2: Cấu trúc thư mục lưu trtài liu TBT  
B6.2: Sao chép dliu. Có ththc hin thcông hoc nhshtrca phn mm  
TP CHÍ KINH T- CÔNG NGHIP  
68  
KHOA HC - NG DNG  
B6.3: Sp xếp. Theo tiêu chí đã chọn, có ththc hin thcông hoc nhshtrca phn  
mm  
BKT: Kết thúc.  
4. Phương pháp phân loại tài liu và các thut toán  
4.1 Phương pháp phân loại tài liu TBT  
Phân loại theo như mô hình phân loi  
Hướng tiếp cn này là: Xác định CSPL; Tìm vtrí thích hp cho ni dung mt tài liu TBT.  
Ngoài ra, vic phân loi tài liệu còn theo hướng khác là phân loi theo ni dung ca tài liu.  
Sau khi phân loi thì CSPL ca tài liu TBT sẽ được thiết lập và sau đó thực hin tiếp việc lưu  
trtài liu. Tuy nhiên vic thiết lp CSPL và việc lưu trữ tài liu có ththc hin song song. Thut  
toán “Xây dựng CSPL và lưu tài liệu” ở dưới đây sthc hin hai công việc này đồng thi.  
Phân loi tài liu theo ni dung tài liu  
Số lượng tài liu TBT sẽ được gia tăng theo thời gian lưu trữ và toàn bộ đều là tài liu dng  
văn bản. Đa số các phương pháp phân loại ni dung tài liệu đều theo mt số hướng chung: Máy  
hc; Mô hình xác sut và thng kê; Gii thut hc tự động…  
Bài toán phân loi tài liu da vào chyếu tình hung phân loi da trên các CSDL có sn  
các tài liu TBT. Thut toán phân loi thc hin phân loi trên toàn btp dliệu đã xử lý trước  
thuc CSDL tài liu.  
Quy trình chung cho phương pháp phân loại tài liu theo ni dung:  
Sp xếp tài liệu theo tiêu chí xác định trước;  
Xây dng bdliệu để hc;  
Tiến hành hc trên bdliu;  
Xlý dliệu có được;  
Thu thp kết qutheo tng chủ đề;  
Rút ra các đặc trưng riêng bit;  
Kết hợp các đặc trưng đã học với đặc trưng riêng biệt;  
Phân loại và đưa ra kết qu.  
Để cung cp mt scác kthut xlý cn thiết cho các bước trong quy trình phân loi thì có  
các ni dung kthut sau:  
o Quy trình xlý tài liệu: nêu lên các bước cn thiết để phân loi tài liu.  
o Phương pháp tách từ: là mt kthut sdụng phương pháp n-gram để ly các tcn thiết.  
o Phương pháp tính trọng sca t: là kthuật đếm từ trong văn bản.  
o Cu trúc biu din tri thc RDF: là một cách để biu din tri thức thu được.  
4.2 Thut toán phân loi tài liu TBT  
Phân loi tài liệu theo như mô hình phân loi  
Do CSPL có cu to t6 khi nên sẽ có 6 bước chính để xác định CSPL và tương ứng vi vic  
lưu trữ tài liu.  
Thut toán Xay_Dung_CSPL_Luu thc hin 2 công vic chính: tạo ra CSPL và lưu trữ tài  
liệu đúng vị trí ca nó. Dliệu đầu vào là mt tài liu TBT dng văn bản đã xử lý theo tiêu chun  
cho trước. Kết thúc thut toán thì tài liệu đã được định theo CSPL và đã lưu trữ đúng vị trí.  
- Hàm Lay_ThuMuc (ThietBiLuu, ViTri) có 2 tham svào: thiết bị để lưu trữ tài liu TBT F  
(ThietBiLuu); vị trí để lưu (ViTri). Hàm này strkết quả ra là thư mục gốc dùng để cha tài  
liu TBT F.  
TP CHÍ KINH T- CÔNG NGHIP  
69  
KHOA HC - NG DNG  
- Sáu hàm (Lay_So_Chuyen_Muc(), Lay_Quoc_Gia_Khu_Vuc(), Lay_Co_Quan_To_Chuc(),  
Lay_Khung_Phan_Loai(), Lay_Ma_San_Pham(), Lay_Ky_Hieu()) đều có 1 tham svào là  
tập tin TBT F đã được xlý và trvề tương ứng cho sáu chui (mã schuyên mc, mã số  
quc gia/khu vc, viết tắt cơ quan/tổ chc, k hiu Khung phân loi, k hiu Sn phm, k  
hiu tài liu TBT).  
Thut toán Xay_Dung_CSPL_Luu  
Function Xay_Dung_CSPL_Luu  
Input: F (Tp tin TBT); Output: CSPL và TM  
1. TM Lay_ThuMuc(ThietBiLuu, ViTri)  
2. CSPL “”// CSPL rng  
3. CSPL Lay_So_Chuyen_Muc(F)  
4. Dua_Tai_Lieu_Vao(F, CSPL, TM)  
5. CSPL  
CSPL  
+
“.”  
+
+
+
Lay_Quoc_Gia_Khu_Vuc(F)  
6. Dua_Tai_Lieu_Vao(F, CSPL, TM)  
7. CSPL CSPL  
Lay_Co_Quan_To_Chuc(F)  
8. Dua_Tai_Lieu_Vao(F, CSPL, TM)  
9. CSPL CSPL  
+
“.”  
+
“.”  
Lay_Khung_Phan_Loai(F)  
10. Dua_Tai_Lieu_Vao(F, CSPL, TM)  
11. CSPL CSPL + “.” + Lay_Ma_San_Pham(F)  
12. Dua_Tai_Lieu_Vao(F, CSPL, TM)  
13. CSPL CSPL + “.” + Lay_Ky_Hieu(F)  
14. Dua_Tai_Lieu_Vao(F, CSPL, TM)  
15. Bkt. Kết thúc.  
Thut toán Dua_Tai_Lieu_Vao thc hin công việc chính: đọc, phân tích CSPL, đưa tập tin ở  
đầu vào đến đúng vtrí ca nó dựa trên thư mc ở đầu vào.  
Thut toán Dua_Tai_Lieu_Vao  
Input: F; CSPL; TM  
1. VT Lay_Do_Dai(CSPL) //độ dài  
2. TTM Lay_TenThuMuc(CSPL)  
3. Nếu TTM != “” Thì  
4. Chuyen_Tai_Lieu_Vao(F, TM)  
5. Bkt. Kết thúc  
6. Ngược li Tao_ThuMuc(TM, TTM)  
7. Bkt. Kết thúc.  
Gii thích các hàm/thtc trong thut toán ở dưới:  
Hàm Lay_Ky_Tu có 2 tham svào là: Vtrí (VT); Chui gc (CSPL). Hàm này trkết qura là  
ký tự ở vtrí VT trong chui gc CSPL.  
TP CHÍ KINH T- CÔNG NGHIP  
70  
KHOA HC - NG DNG  
Hàm Lay_Chuoi có 3 tham svào là: Vtrí bắt đầu (VTD); Vtrí kết thúc (VTC); Chui gc  
(CSPL). Hàm này trkết qura là chui ký tmà có bắt đầu vtrí VT và lấy cho đến hết  
trong chui gc CSPL.  
Hàm Lay_TenThuMuc(CSPL) để lấy ra tên thư mục, nếu TTM = “” thì thc hin việc đưa/sao  
chép tài liệu vào đúng chỗ vi thtc Chuyen_Tai_Lieu_Vao(F, TM), nếu TTM != “” thì thc  
hin vic thtc Tao_ThuMuc(TM, TTM)  
Thtc Tao_ThuMuc(TM, TTM) để kiểm tra xem TM đã tồn ti TTM chưa, nếu chưa thì tạo  
mi, nếu có thì bqua.  
Phân loi tài liu theo ni dung tài liu TBT  
Các kthuật để thc hiện đã được nghiên cu các công trình.  
Quy trình xlý  
Hình 3: Quy trình xlý tài liu  
Trong đó:  
Ngữ liệu huấn luyện: kho ngữ liệu thu thập từ nhiều tài liệu khác nhau.  
Tiền xử lý: chuyển đổi tài liệu trong kho ngữ liệu thành một hình thức phù hợp để phân  
loại/lớp.  
Vector  
: mã  
văn bản bởi một mô hình trọng số.  
Trích chọn đặc trưng: loại bỏ những từ (đặc trưng) không mang thông tin khỏi tài liệu nhằm  
nâng cao hiệu suất phân loại giảm độ phức tạp của thuật toán huấn luyện.  
Thuật toán huấn luyện: Thủ tục huấn luyện bộ phân lớp để tìm ra họ các tham số tối ưu.  
Đánh giá: bước đánh giá hiệu suất (chất lượng) của bộ phân lớp/loại.  
Phương pháp tách từ  
Phương pháp tách từ là sdng mô hình N-gram. N-gram là tn sut xut hin củ  
(hoc t) liên tiếp nhau có trong dliu.  
tự  
Với n = 1 và tính trên k tự, có thông tin về tần suất xuất hiện nhiều nhất của các chữ cái.  
Với n = 2, có khái niệm bigram. Ví dụ: với các chữ cái tiếng Anh, ‘th’,’he’,’in’,’an’,’er’ là các  
cặp k tự hay xuất hiện nhất. Ngoài ra, ta có thể biết thêm rằng sau k tự ‘q’ thì phần lớn đều là k  
tự ‘u’.  
Với n = 3, có trigram. Nhưng vì n càng lớn thì số trường hợp càng lớn nên thường chỉ sử dụng  
với n = 1 hoặc 2, hoặc đôi lúc là 3. Ví dụ, với các k tự tiếng Anh, tiếng Anh sử dụng 26 k tự, vậy  
với n = 1 thì số trường hợp là 26, n = 2 thì số trường hợp là 262 = 676 trường hợp, n = 3 có 17576  
trường hợp.  
TP CHÍ KINH T- CÔNG NGHIP  
71  
KHOA HC - NG DNG  
Hướng tiếp cn gii quyết ở đây là: chia văn bản ra làm nhiu chui; mi chui gm n t;  
thường sdng n = 2. Ví d, khi áp dụng phương pháp này cho văn bản T = “dc gt de” thì sthu  
được t3 từ đơn (dc; gt; de) và 2 từ ghép (dc gt; gt de).  
Vấn đề khó khăn khi xây dựng mô hình ngôn ngN-gram:  
i. Phân bố không đều:  
Mô hình N-gram được xây dng theo công thc “xác suất thô”, do đó có thể xut hin sự  
phân bố không đều hoc phân bố thưa trong tập văn bản hun luyn và dẫn đến các ước lượng  
không chính xác và kết quả thu được không tt.  
Có nhiều câu văn mà xác suất sbng 0, do cm N-gram chưa tồn ti trong dliu hun  
luyện. Để khc phc tình trng này thì ssdng các phương pháp làm mịn.  
ii. Kích thước bnhca mô hình ngôn ng:  
Số lượng các cm N-gram và kích thước ca mô hình ngôn ngvà sẽ tăng lên tùy theo kích  
thước tập văn bản hun luyn.  
Phương pháp làm mịn: có mt sloại khác nhau như (Chiết khu-Discounting); Truy hi  
(Back-off); Ni suy (Interpolation)).  
Trong bài  
này skhông trình bày nội dung và so sánh các phương pháp làm mịn, mà chỉ  
trình bày Thut toán tách t. Đối vi tng tài liu TBT cthsla chn kthut làm mn theo sự  
chdn riêng phù hp vi nó.  
Thut toán Tach_Tu_Ngram lấy độ dài ca chui là n, tạo danh sách lưu trữ kq, tiếp đó lần  
lượt ly ra các ký t, số lượng ký tly ra phthuc vào tham sgram ở đầu vào, đưa chuỗi ký tự  
ly ra vào kq để lưu trữ.  
Thut toán Tach_Tu_Ngram  
Function Tach_Tu_Ngram  
Input: self; statement; gram  
1. n len(statement)  
2. kq[] // to mảng lưu kết quả  
3. IF n >= gram THEN  
For i in n do  
kq = incre(kq[statement[i:i + gram])  
4. Kết thúc.  
Phương pháp tính trng sca từ  
Giải thuật:  
Bước 1: Loại bỏ các từ tầm thường (stopword).  
Bước 2: Đếm tần suất xuất hiện của các từ trong bước 1.  
Bước 3: Tính trọng số của từ theo công thức trong khung ở dưới:  
TP CHÍ KINH T- CÔNG NGHIP  
72  
KHOA HC - NG DNG  
Weight =tf*idf  
wi  
tf =Ns(t)/w  
idf =log(d/(d:td))  
Trongđó:  
Ns:Số lần xut hiện ca ttrong tài liệu  
w:Tng scác ttrong tài liệu  
∑d=tng số tài liệu  
D : t d:số tài liệu có cha từ  
Cho mt văn bản gồm 1000 t, trong đó t“Sản Phẩm” xut hiện 40 lần thì độ phbiến  
Tf (“Sản Phẩm”) = 40 / 1000 = 0.04  
Giscó 2000 tài liệu đã được huấn luyn, trong đó có 400 tài liệu cha từ “Sản Phẩm”.  
Idf (“Sản Phẩm”) = log (2000 / 400) 0.699  
Như vậy, với giá trị TF.IDF=tf*idf thì TF.IDF=0.04*0.699=0.028  
5. Kết quvà tho lun  
Tài liệu TBT được thu thp sẽ tăng dần dn theo thời gian, được phân loại và lưu trữ theo  
phương pháp xử lý trc tiếp và liên tc (khi nhận được bt ktài liu TBT nào thì lp tc thc hin  
vic xlý và phân loi).  
Tài liu TBT có nội dung khác nhau do đó sẽ được phân chia vào các thloi khác nhau. Bài  
đề nghmt tài liu TBT bt kphải được phân loi vào một trong năm loại văn bản: Lut;  
Thông báo; Quy chun; Tiêu chun; Tranh chp. Số lượng tài liệu TBT đã thu thập được là 21706,  
phân btheo 5 loi: Lut (1347); Thông báo (10481); Quy chun (146); Tiêu chun (9692); Tranh  
chp (40).  
Mt tài liu TBT sau khi thu thập được sẽ đi qua 6 bước như đã trình bày trong nội dung ca  
phn 3 trên. Trong 6 bước đã trình bày ở trên thì có các bước quan trng cn tp trung là B5 và  
B6. Hai bước bày có thdùng thuật toán để thc hin song song vi nhau.  
B5 và B6 có các tác vchyếu sau:  
i. Xác định tài liu thuc mt trong 5 loi (Lut; Thông báo; Quy chun; Tiêu chun; Tranh chp),  
phương pháp thực hin thủ công (đọc ni dung trong tài liệu, xác định loi của văn bản và tùy thuc  
vào nhn biết chuyên môn của con người).  
ii. Làm mu/phiếu biên mc tài liu, các phiếu này đã được thiết kế sn theo mu Bng 1 và Bng  
2. Công tác điền vào mu là nhp thủ công thông qua chương trình máy tính. Việc nhp các giá trị  
vào tùy thuc vic áp dng thc tin, ở đây bài báo đề nghmt snguyên tc cn phi tuân th.  
Các nguyên tc như sau:  
o Phải ghi đầy đủ ni dung vào các s.  
o Ngày ghi bng số Ả Rp, tháng ghi bng sLa Mã.  
o Các svào sphi liên tục, không được nhy s, có thquay li giá trị ban đầu là 1 tùy theo  
quy định khung thời gian (thường là 1 năm).  
o Nếu tên tài liu quá dài, có thghi tóm lược nhng chữ đầu và 3 chm, hoc ghi nhng chữ  
đầu + 3 chm + nhng chcui.  
iii. Mt tài liu TBT scó 8 vùng: Nhan đề [tài liu]; Sn phm; Đa chxut bản (Cơ quan/Tổ  
chc xut bn); Thi gian (xut bn; góp ý; hiu lc); Chi tiết vt cht tài liu (dng/loi, dung  
TP CHÍ KINH T- CÔNG NGHIP  
73  
KHOA HC - NG DNG  
lượng/kích thước); Tài liệu kèm theo (tên, dung lượng/kích thước); Tóm tt; Mã/sKý hiu tiêu  
chun.  
iv. Vic phân loi tài liu sẽ theo 2 hướng: Hướng theo Mô hình phân loi tài liu TBT; Hướng  
theo Ni dung ca tài liệu TBT. Hướng theo Mô hình phân loi sáp dng Thut toán  
Xay_Dung_CSPL_Luu. Thut toán này có mt công vic quan trọng là xác định CSPL. Xác định  
CSPL thc hin theo 2 cách tiếp cn: thủ công (đọc tài liu và dò tìm trong bng/khung phân loi);  
phát trin thut toán.  
v. Thuật toán xác định CSPL có sdng các thut toán htr: Lay_So_Chuyen_Muc();  
Lay_Quoc_Gia_Khu_Vuc();  
Lay_Co_Quan_To_Chuc();  
Lay_Khung_Phan_Loai();  
Lay_Ma_San_Pham(); Lay_Ky_Hieu(). Sáu thut toán này sẽ được xây dng riêng qua các phiên  
bn phát trin khác nhau.  
vi. Tạo thư mục, trước tiên skiểm tra thư mục thích hp nếu đã tồn ti thì bqua, nếu chưa  
tn ti thì thực thi. Phương pháp thực hin thcông hoc phát triển chương trình hỗ tr.  
vii. Sao chép dliu và vic sp xếp được thc hiện song song đồng thi với nhau, đều được  
thc hin c ng với 2 phương pháp thực hin (thcông hoc phát triển chương trình hỗ tr).  
Nếu bqua chi phí thc hin ở các bước B1, B2, B3, B4 thì chi phí thc hin chcòn có B5  
và B6 là 6 bước nhbên trong. Chi phí thi gian thc hin thc tế sphthuc vào vic trin khai  
lập trình cho các bước B5 và B6.  
Cho CSDL TBT có số lưng tài liệu và các bước xử lý gia tăng như sau:  
Bng 4: Số lượng tài liu TBT và số bước thc hiện tương ứng  
Số lượng  
Số bước  
1000  
2000  
4000  
8000  
6000 12000 24000 48000  
Số lượng 16000 32000 64000  
128000  
Số bước 96000 192000 384000 768000  
Phlc bng biu  
Bng 1: Mu Sổ đăng ký tổng quát  
Ngày STT  
Ngun  
cung cp  
Tng số  
Ta (tiêu  
Chi  
phí  
Ngun  
Ghi  
chú  
Số  
đề)  
bn  
1
2
3
4.1  
4.2  
5
6.1 6.2 6.3 6.4 6.5  
7
Ngày  
STT  
Quc gia và ta  
Xut bn  
Chi  
phí  
Svào  
SĐKTQ  
Phụ  
chú  
Cơ quan /  
Năm  
Tchc  
1
2
3
4.1  
4.2  
5
6
7
TP CHÍ KINH T- CÔNG NGHIP  
74  
KHOA HC - NG DNG  
Bng 3: Mu danh mc tài liu TBT  
STT  
Ngày  
Chuyên mc  
Quc gia Cơ quan / Sn phm  
Tchc  
Svào  
SĐKTQ  
Ký  
hiu  
1
2
3
4
5
6
7
8
Tài liu tham kho  
[1]. Customs Cooperation Council (WCO) (1983), Công ước Quc tế vHthng hài hòa mô tả  
và mã hàng hóa (Công ước HS), Brussels.  
[2]. Cao Đức Tư (2011), Nghiên cu mô hình ngôn ngN-gram và ng dng trong bài toán  
thêm du cho tiếng Vit không du”, Đại hc Công nghthông tin, Đại hc Thái Nguyên.  
[3]. (2005), International Classification for Standards (6th ed.)”, International Organization for  
Standardization, Switzerland..  
[4].  
(2017), Nghiên cu và xây dng Hhỏi đáp thông minh  
cho thông tin vHàng rào Kthuật trong Thương mại (TBT) ca tnh Long An”, Trường Đại hc  
Kinh tế Công nghip Long An.  
[5]. Trần Cao Đệ, Phm Nguyên Khang, Phân loại văn bản vi máy hc vector htrvà cây  
quyết định, Trường đại hc Cần Thơ.  
[6].Trn ThThu Tho, Vũ Thị Chinh, Xây dng hthng phân loi tài liu tiếng Vit, Khoa  
Công nghThông tin, Trường Đi hc Lc Hng.  
: 17/10/2017  
: 27/10/2017  
TP CHÍ KINH T- CÔNG NGHIP  
75  
pdf 12 trang baolam 12/05/2022 3400
Bạn đang xem tài liệu "Xây dựng quy trình và thuật toán để phân loại tài liệu TBT", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

File đính kèm:

  • pdfxay_dung_quy_trinh_va_thuat_toan_de_phan_loai_tai_lieu_tbt.pdf