Tên đề tài luận án: Xây dựng mô hình đánh giá độ khó của văn bản tiếng Việt
Ngành: Khoa học Máy tính
Mã số ngành: 62480101
Họ tên nghiên cứu sinh: Lương An Vinh
Khóa đào tạo: 2016
Người hướng dẫn khoa học: PGS. TS. Đinh Điền
Cơ sở đào tạo: Trường Đại học Khoa học Tự nhiên, ĐHQG.HCM
1. Tóm tắt luận án
Độ khó của văn bản là hệ thống các yếu tố ngôn ngữ của nội tại văn bản ảnh hướng đến tính dễ đọc hay khó đọc của một văn bản. Các nghiên cứu về độ khó đã được bắt đầu từ lâu, nhưng hầu hết các nghiên cứu đó đều được thực hiện trên tiếng Anh và một số ngôn ngữ phổ biến trên thế giới. Trong tiếng Việt, trước đây chỉ có hai công trình nghiên cứu về Độ khó của văn bản, thực hiện trên hai bộ ngữ liệu khá nhỏ. Chính vì thế, rất cần có thêm các công trình nghiên cứu khác về độ khó của văn bản tiếng Việt thực hiện trên các bộ ngữ liệu cập nhật hơn, lớn hơn và trên các đặc trưng sâu hơn của văn bản như vai trò của từ, ngữ, cấu trúc ngữ pháp, ngữ nghĩa của câu…
Luận án đã xây dựng 2 bộ ngữ liệu dùng để khảo sát và thực nghiệm đánh giá độ khó văn bản tiếng Việt, gồm: (1) Bộ ngữ liệu 370 văn bản thu thập từ sách giáo khoa tiếng Việt và Ngữ văn; và (2) Bộ ngữ liệu 1.825 văn bản thuộc lĩnh vực văn học và ngôn ngữ học. Đây là 2 bộ ngữ liệu lớn và công khai đầu tiên về độ khó văn bản trong tiếng Việt. Luận án đã khảo sát 262 đặc trưng được trích xuất từ các văn bản này để xây dựng các công thức, các mô hình đánh giá độ khó văn bản. Các đặc trưng này được thuộc nhiều cấp độ của văn bản như các đặc trưng ở mức bề mặt (độ dài câu, độ dài từ, …), các đặc trưng về tần suất từ và tần suất chữ, các đặc trưng ở cấp độ ngữ pháp mức từ, mức câu, các đặc trưng thuộc về mô hình ngôn ngữ, các đặc trưng đơn giản ở cấp độ ngữ nghĩa và các đặc trưng của riêng tiếng Việt (như tỉ lệ từ mượn, tỉ lệ phương ngữ).
Luận án cũng đã giới thiệu 3 mô hình đánh giá độ khó văn bản tiếng Việt theo từng hướng tiếp cận: Với hướng tiếp cận thống kê, luận án đã thực hiện phân tích tương quan để chọn ra những đặc trưng có tương quan cao nhất với độ khó của văn bản, sau đó thực hiện phân tích hồi quy với một số cải tiến khi thực nghiệm để xây dựng công thức tính độ khó văn bản tiếng Việt. Kết quả cho thấy công thức mới được xây dựng có độ tương quan với độ khó văn bản vượt trội so với tất cả các nghiên cứu khác.
Với hướng tiếp cận máy học, luận án đã đề xuất sử dụng thuật toán RFECV để tự động chọn ra các đặc trưng có đóng góp tốt vào các mô hình máy học đánh giá độ khó văn bản dùng các thuật toán phân lớp truyền thống. Nhờ đó, mô hình mà luận án xây dựng đã đạt độ chính xác cao so với các nghiên cứu trước đây.
Ngoài ra, luận án cũng đề xuất một mô hình học sâu để phân lớp văn bản theo độ khó dựa trên mô hình ngôn ngữ tiền huấn luyện BERT và mạng LSTM. Độ chính xác của mô hình có giảm nhẹ so với các mô hình máy học truyền thống nhưng chúng ta tiết kiệm được chi phí để gán nhãn và trích xuất đặc trưng từ văn bản. Khi tích hợp thêm một số đặc trưng ngôn ngữ trích xuất từ văn bản vào mô hình học sâu, độ chính xác của mô hình đã được cải thiện và cao hơn so với các mô hình phân lớp truyền thống.
2. Những kết quả mới của luận án
Việc khảo sát nhiều đặc trưng đã giúp luận án chọn ra được những đặc trưng có tương quan cao nhất với độ khó của văn bản. Công thức hồi quy được xây dựng từ những đặc trưng này có hệ số tương quan cao với độ khó của văn bản so với các nghiên cứu trước đây: thực nghiệm của luận án đạt hệ số tương quan 0,89, cao hơn 0,01 điểm so với nghiên cứu của Luong và các cộng sự [148] (sau khi điều chỉnh trọng số) và cao hơn 0,04 điểm so với Nguyen và Henkin (1982) [2]. Ngoài ra, luận án còn đề xuất cải tiến thực nghiệm phân tích hồi quy: sử dụng tất cả các đặc trưng có tương quan cao với độ khó của văn bản để thực hiện phân tích. Kết quả thực nghiệm cho thấy công thức mới được xây dựng có kết quả về độ tương quan với độ khó văn bản là vượt trội so với tất cả các nghiên cứu khác (đạt hệ số tương quan 0,94).
Việc ứng dụng thuật toán xếp hạng đặc trưng RFECV để lựa chọn những đặc trưng tốt nhất ứng với từng thuật toán phân lớp đã giúp mô hình đánh giá độ khó văn bản mà luận án xây dựng được có độ chính xác cao so với các nghiên cứu trước đây: độ chính xác của mô hình phân lớp đạt ~85,7% với bộ ngữ liệu sách giáo khoa và 95,72% với bộ ngữ liệu văn học - ngôn ngữ học.
Sử dụng kỹ thuật học sâu dựa trên BERT và mạng LSTM mà luận án đề xuất, độ chính xác của mô hình có giảm nhẹ so với các mô hình máy học truyền thống (95,2% so với 95,72% trên bộ ngữ liệu văn học - ngôn ngữ học) nhưng chúng ta tiết kiệm được chi phí để gán nhãn và trích xuất đặc trưng từ văn bản. Khi tích hợp thêm một số đặc trưng ngôn ngữ trích xuất từ văn bản, độ chính xác của mô hình đã được cải thiện hơn so với các thuật toán phân lớp truyền thống (đạt 96,57%).
3. Các ứng dụng/ khả năng ứng dụng trong thực tiễn hay những vấn đề còn bỏ ngỏ cần tiếp tục nghiên cứu
Kết quả của luận án có thể áp dụng vào nhiều lĩnh vực quan trọng như hỗ trợ biên soạn sách giáo khoa, giáo trình, viết báo, viết hướng dẫn sử dụng, viết định nghĩa trong từ điển giải thích bằng tiếng Việt, hỗ trợ dạy tiếng Việt cho người nước ngoài…
Do các hạn chế hiện hữu của các công cụ xử lý ngôn ngữ tiếng Việt, các đặc trưng mà luận án sử dụng chỉ dừng lại tới các đặc trưng đơn giản ở cấp độ ngữ nghĩa như tỉ lệ các từ đơn nghĩa, tỉ lệ các từ đa nghĩa , … Các đặc trưng ở sâu hơn ở mức ngữ nghĩa và ngữ dụng của văn bản hay các yếu tố liên kết trong văn bản không được xét đến trong luận án. Ngoài ra, do khuôn khổ của một luận án tiến sĩ, nên chúng tôi chỉ mới thu thập và khảo sát hai bộ ngữ liệu (ngữ liệu sách giáo khoa và ngữ liệu văn học - ngôn ngữ học). Việc áp dụng các mô hình đã đề xuất trong luận án sang các miền ngữ liệu khác có thể sẽ không tốt do các miền ngữ liệu đó có cách sử dụng từ, ngữ, câu và các yếu tố ngôn ngữ khác so với miền văn học - ngôn ngữ học. Trong tương lai, việc thu thập, xây dựng thêm các bộ ngữ liệu lớn hơn, khảo sát trên các đặc trưng sâu hơn ở cấp độ ngữ nghĩa cần được thực hiện để cải thiện độ tương quan và độ chính xác của các mô hình đánh giá độ khó văn bản tiếng Việt trong các lĩnh vực khác nhau.
Hãy là người bình luận đầu tiên