Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://elib.vku.udn.vn/handle/123456789/2307
Nhan đề: Xây dựng ngữ liệu song ngữ Việt - K'Ho
Tác giả: La, Quốc Thắng
Đoàn, Minh Khuê
Nguyễn, Thị Lương
Trần, Ngô Như Khánh
Hoàng, Minh Tiến
Từ khoá: Gióng câu
Gióng từ
Mô hình BERT
Mô hình IBM
Song ngữ
Tách câu
Tách từ
Năm xuất bản: thá-2022
Nhà xuất bản: Nhà Xuất bản Đà Nẵng
Tóm tắt: Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thêm các nguồn dữ liệu khác. Nghiên cứu này giới thiệu một quy trình xử lý và tổng hợp dữ liệu từ điển Việt - K'Ho từ nhiều nguồn khác nhau sử dụng phương pháp gióng từ trên văn bản song ngữ nhằm trích xuất các cặp từ song ngữ có mối quan hệ dịch. Kết quả thực nghiệm cho thấy chương trình gióng từ dựa trên mô hình IBM hiệu quả hơn chương trình dựa trên mô hình BERT với thời gian thực thi nhanh hơn.
Mô tả: Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 11 (CITA-2022); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 201-210.
Định danh: http://elib.vku.udn.vn/handle/123456789/2307
ISSN: 978-604-84-6711-1
Bộ sưu tập: CITA 2022

Các tập tin trong tài liệu này:

 Đăng nhập để xem toàn văn



Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.