Please use this identifier to cite or link to this item: https://elib.vku.udn.vn/handle/123456789/261
Title: GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Other Titles: EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA IN NATURAL LANGUAGE PROCESSING
Authors: Đặng, Đại Thọ
Doãn, Hằng Diệu
Huỳnh, Công Pháp
Keywords: Trích rút thông tin
phân loại thông tin
kho ngữ liệu
Trích rút tên riêng
phân loại tên riêng
Issue Date: 2014
Abstract: Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên là một bước quan trọng và là tiền đề cho việc mở rộng và xây dựng các kho ngữ liệu theo hướng ngữ nghĩa. Việc nghiên cứu trích rút và phân loại thông tin trong các ngôn ngữ khác và được thực hiện bằng các phương pháp như dựa trên hệ luật (rule – based),học máy (machine learning), Markov ẩn,...trên các nguồn dữ liệu internet đã được quan tâm đáng kể. Tuy nhiên chưa có công trình nào nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên. Hơn nữa, các phương pháp trích rút và phân loại thông tin đã sử dụng như nêu ở trên đều có những nhược điểm riêng của nó. Trong bài báo này, chúng tôi đề xuất giải pháp kết hợp thuật toán Maximum Matching với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên. Giải pháp mà chúng tôi đề xuấtbước đầu đã mang lại kết quả rất đáng khích lệ
URI: http://thuvien.cit.udn.vn//handle/123456789/261
Appears in Collections:CITA 2014

Files in This Item:

 Sign in to readItems in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.