Tên đề tài luận án: Xây dựng mô hình tích hợp tri thức ngôn ngữ trong dịch máy mạng neural Anh-Việt
Ngành: Khoa học Máy tính
Mã số ngành: 9480101
Họ tên nghiên cứu sinh: Nguyễn Hồng Bửu Long
Khóa đào tạo: 2018
Người hướng dẫn khoa học (ghi rõ học hàm, học vị, họ và tên CBHD): PGS.TS. Đinh Điền
Cơ sở đào tạo: Trường Đại học Khoa học Tự nhiên, ĐHQG.HCM
1. Tóm tắt nội dung luận án:
Luận án nghiên cứu tính hữu ích của việc sử dụng tri thức ngôn ngữ bổ sung để cải thiện các mô hình NMT hiện nay (gồm Seq2Seq, ConvSeq2Seq và Transformer). Luận án đề xuất sử dụng nhiều loại tri thức ngôn ngữ gồm tri thức từ vựng, tri thức ngữ pháp, tri thức ngữ nghĩavà đưa ra cách phương pháp tiếp cận khác nhau để tích hợp tri thức ngôn ngữ vào cả giai đoạn huấn luyện và suy luận của các mô hình NMT. Cụ thể, chúng tôi nghiên cứu hai phương pháp tích hợp: 1) mô hình tích hợp tri thức ngữ pháp và ngữ nghĩa cả trong giai đoạn huấn luyện và suy luận, và 2) mô hình tích hợp tri thức ngôn ngữ tổng quát vào chỉ giai đoạn huấn luyện.
Tích hợp tri thức ngôn ngữ vào các mô hình NMT mang lại rất nhiều lợi ích. Đầu tiên, điều này giải quyết các vấn đề về ngữ liệu thưa và nhập nhằng ngữ nghĩa. Thứ hai, thông tin ngữ pháp và ngữ nghĩa có cấu trúc được xây dựng từ tri thức ngôn ngữ có thể cung cấp thông tin trừu tượng cao hơn cho văn bản, qua đó cải thiện chất lượng các mối quan hệ ở cấp độ từ trong không gian vector. Cuối cùng, cơ chế chú ý cũng có thể tận dụng tri thức ngôn ngữ để cải thiện thông tin phụ thuộc giữa các từ trong câu.
2. Những kết quả mới của luận án:
Luận án trình bày một số kết quả mới qua việc đề xuất các mô hình tích hợp tri thức ngôn ngữ vào quá trình dịch máy mạng neural:
• Xây dựng mô hình tích hợp tri thức từ vựng: Luận án xét tri thức từ vựng theo phương diện hình thái tức là xét về mối quan hệ giữa đơn vị ngôn ngữ với hình thức cấu tạo của đơn vị đó. Cụ thể, luận án đề xuất mô hình tích hợp tri thức từ vựng ở cấp độ cụm từ gọi là PhraseAttn tập trung vào việc tạo ra các biểu diễn cụm từ để cải tiến biểu diễn từ. Kết quả thực nghiệm cho thấy phương pháp đề xuất tích hợp tri thức cụm từ đạt được sự cải thiện đáng kể so với Transformer cơ sở, đặc biệt là trong các câu dài.
• Xây dựng mô hình tích hợp tri thức ngữ pháp: Ngữ pháp thể hiện mối quan hệ giữa đơn vị ngôn ngữ này với các đơn vị ngôn ngữ hữu quan. Luận án xét phương diện ngữ pháp ở cấp độ từ (từ loại) và cấp độ câu (cây cú pháp phụ thuộc). Bằng cách sử dụng thông tin từ nhãn từ loại hay các cây cú pháp, các mô hình dịch có thể có được thông tin chi tiết về cấu trúc của ngôn ngữ. Trong đó, mô hình tích hợp tri thức từ loại cải tiến cơ chế chú ý chéo để có thể tích hợp thông tin nhãn từ loại và mô hình tích hợp tri thức phụ thuộc tích hợp thông tin cú pháp phụ thuộc từ cây phân tích cú pháp phụ thuộc vào mô hình NMT thông qua bộ mã hóa đồ thị dựa trên mô hình Transformer.
• Xây dựng mô hình tích hợp tri thức ngữ nghĩa: Ngữ nghĩa thể hiện mối quan hệ giữa đơn vị ngôn ngữ với nội dung (mặt ý nghĩa) của đơn vị đó. Luận án xét phương diện ngữ nghĩa ở cấp độ từ (qua nhãn ngữ nghĩa của từ) và ở cấp độ câu (qua đồ thị ngữ nghĩa của câu). Luận án xây dựng mô hình tích hợp hai loại đồ thị ngữ nghĩa gồm đồ thị ngữ nghĩa trừu tượng và đồ thị khái niệm phổ quát. Qua đó, luận án chứng minh khả năng tiếp thu thông tin ngữ nghĩa có cấu trúc từ đồ thị ngữ nghĩa có thể bổ sung thông tin ngữ cảnh trong mô hình dịch để thể hiện thông tin trừu tượng tốt hơn.
• Xây dựng mô hình tích hợp tri thức tổng quát: Các mô hình tích hợp tri thức ngôn ngữ có một hạn chế rất lớn: thông tin ngôn ngữ phải được đưa vào cả trong quá trình huấn luyện và quá trình dự đoán. Luận án xây dựng mô hình tích hợp tri thức chỉ ở giai đoạn huấn luyện và không can thiệp vào giai đoạn dự đoán thông qua cơ chế so khớp.
3. Các ứng dụng/ khả năng ứng dụng trong thực tiễn hay những vấn đề còn bỏ ngỏ cần tiếp tục nghiên cứu
Luận án đã đánh giá các mô hình đề xuất trên bốn cặp ngôn ngữ, bao gồm Anh - Việt (cặp ngôn ngữ chính), Anh - Đức, Anh - Pháp và Anh - Séc. Kết quả thực nghiệm trên các cặp ngôn ngữ khác nhau chứng minh rằng các mô hình NMT có tích hợp tri thức ngôn ngữ mang lại hiệu suất tốt hơn nhờ khả năng mô hình hóa sâu hơn các khía cạnh ngữ pháp và ngữ nghĩa của ngôn ngữ. Ngoài ra, các mô hình đề xuất phù hợp với cả cặp ngôn ngữ ít tài nguyên và cặp ngôn ngữ giàu tài nguyên. Do đó, các nghiên cứu trong luận án hoàn toàn có thể áp dụng vào xây dựng các ứng dụng đáp ứng nhu cầu thực tiễn.
Hãy là người bình luận đầu tiên