Please use this identifier to cite or link to this item: https://elib.vku.udn.vn/handle/123456789/3827
Title: Xây dựng bộ công cụ cho tiền xử lý và tách từ Tiếng Việt
Other Titles: Building a Toolkit For Vietnamese Preprocessing and Word Segmentation
Authors: Nguyễn, Hữu Nhật Minh
Nguyễn, Trần Tiến
Nguyễn, Kết Đoàn
Nguyễn, Đức Bảo
Võ, Văn Nam
Phạm, Văn Nam
Keywords: Sentence Segmentation
Regular Expression
Word Segmentation
Word Normalization
Vietnamese Language Processing
Issue Date: Jun-2024
Publisher: Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn
Series/Report no.: NCKHSV;
Abstract: Nghiên cứu gần đây đã tập trung vào các mô hình ngôn ngữ lớn cho tiếng Việt, tuy nhiên, các bước tiền xử lý đóng vai trò bổ sung quan trọng trong sự thành công tương lai của xử lý ngôn ngữ tiếng Việt. Trong bài báo này, chúng tôi thiết kế và phát triển bộ công cụ DaNangNLP mới có thể xử lý các bước tiền xử lý quan trọng của ngôn ngữ tiếng Việt. Mặc dù đã có nhiều mô-đun thành công trong xử lý ngôn ngữ tiếng Việt, nhưng các bộ công cụ hiện có vẫn còn tồn tại một số thiếu sót nhất định, đặc biệt là trong việc tách từ trong các câu tiếng Việt phức tạp. Do đó, chúng tôi đã phát triển một quy trình xử lý ngôn ngữ tự nhiên thực tiễn và mạnh mẽ được thiết kế đặc biệt cho ngôn ngữ tiếng Việt để giải quyết các vấn đề thách thức hiện diện trong các bộ công cụ xử lý tiếng Việt trước đây. Quy trình của DaNangNLP dựa trên các từ điển tích hợp mới được thiết kế để xử lý văn bản tiếng Việt cho các bước tiền xử lý điển hình như phân đoạn câu, biểu thức chính quy cho từ, chuẩn hóa từ và tách từ. Trong suốt quá trình đánh giá, việc tách từ dựa trên ngữ nghĩa được đề xuất đã vượt trội hơn so với tách từ dựa trên tần suất và các bộ công cụ hiện có trong các câu phức tạp.
Description: Kỷ yếu Nghiên cứu khoa học của sinh viên Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn năm học 2023-2024; trang 34-40
URI: https://elib.vku.udn.vn/handle/123456789/3827
Appears in Collections:SV NCKH Năm học 2023-2024

Files in This Item:

 Sign in to read



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.