Please use this identifier to cite or link to this item:
https://elib.vku.udn.vn/handle/123456789/261
Title: | GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN |
Other Titles: | EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA IN NATURAL LANGUAGE PROCESSING |
Authors: | Đặng, Đại Thọ Doãn, Hằng Diệu Huỳnh, Công Pháp |
Keywords: | Trích rút thông tin phân loại thông tin kho ngữ liệu Trích rút tên riêng phân loại tên riêng |
Issue Date: | 2014 |
Abstract: | Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên là một bước quan trọng và là tiền đề cho việc mở rộng và xây dựng các kho ngữ liệu theo hướng ngữ nghĩa. Việc nghiên cứu trích rút và phân loại thông tin trong các ngôn ngữ khác và được thực hiện bằng các phương pháp như dựa trên hệ luật (rule – based),học máy (machine learning), Markov ẩn,...trên các nguồn dữ liệu internet đã được quan tâm đáng kể. Tuy nhiên chưa có công trình nào nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên. Hơn nữa, các phương pháp trích rút và phân loại thông tin đã sử dụng như nêu ở trên đều có những nhược điểm riêng của nó. Trong bài báo này, chúng tôi đề xuất giải pháp kết hợp thuật toán Maximum Matching với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên. Giải pháp mà chúng tôi đề xuấtbước đầu đã mang lại kết quả rất đáng khích lệ |
URI: | http://thuvien.cit.udn.vn//handle/123456789/261 |
Appears in Collections: | CITA 2014 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.