Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://elib.vku.udn.vn/handle/123456789/3827
Nhan đề: Xây dựng bộ công cụ cho tiền xử lý và tách từ Tiếng Việt
Nhan đề khác: Building a Toolkit For Vietnamese Preprocessing and Word Segmentation
Tác giả: Nguyễn, Hữu Nhật Minh
Nguyễn, Trần Tiến
Nguyễn, Kết Đoàn
Nguyễn, Đức Bảo
Võ, Văn Nam
Phạm, Văn Nam
Từ khoá: Sentence Segmentation
Regular Expression
Word Segmentation
Word Normalization
Vietnamese Language Processing
Năm xuất bản: thá-2024
Nhà xuất bản: Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn
Tùng thư/Số báo cáo: NCKHSV;
Tóm tắt: Nghiên cứu gần đây đã tập trung vào các mô hình ngôn ngữ lớn cho tiếng Việt, tuy nhiên, các bước tiền xử lý đóng vai trò bổ sung quan trọng trong sự thành công tương lai của xử lý ngôn ngữ tiếng Việt. Trong bài báo này, chúng tôi thiết kế và phát triển bộ công cụ DaNangNLP mới có thể xử lý các bước tiền xử lý quan trọng của ngôn ngữ tiếng Việt. Mặc dù đã có nhiều mô-đun thành công trong xử lý ngôn ngữ tiếng Việt, nhưng các bộ công cụ hiện có vẫn còn tồn tại một số thiếu sót nhất định, đặc biệt là trong việc tách từ trong các câu tiếng Việt phức tạp. Do đó, chúng tôi đã phát triển một quy trình xử lý ngôn ngữ tự nhiên thực tiễn và mạnh mẽ được thiết kế đặc biệt cho ngôn ngữ tiếng Việt để giải quyết các vấn đề thách thức hiện diện trong các bộ công cụ xử lý tiếng Việt trước đây. Quy trình của DaNangNLP dựa trên các từ điển tích hợp mới được thiết kế để xử lý văn bản tiếng Việt cho các bước tiền xử lý điển hình như phân đoạn câu, biểu thức chính quy cho từ, chuẩn hóa từ và tách từ. Trong suốt quá trình đánh giá, việc tách từ dựa trên ngữ nghĩa được đề xuất đã vượt trội hơn so với tách từ dựa trên tần suất và các bộ công cụ hiện có trong các câu phức tạp.
Mô tả: Kỷ yếu Nghiên cứu khoa học của sinh viên Trường Đại học Công nghệ Thông tin và Truyền thông Việt - Hàn năm học 2023-2024; trang 34-40
Định danh: https://elib.vku.udn.vn/handle/123456789/3827
Bộ sưu tập: SV NCKH Năm học 2023-2024

Các tập tin trong tài liệu này:

 Đăng nhập để xem toàn văn



Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.