Đề tài: Khảo sát các yếu tố từ vựng ảnh hưởng đến phong cách viết trong văn bản tiếng Việt (đối chiếu với tiếng Anh)
Chuyên ngành: Ngôn ngữ học so sánh đối chiếu
Mã số: 9222024
Họ và tên nghiên cứu sinh: Nguyễn Tuyết Nhung
Người hướng dẫn khoa học: 1. PGS TS. Đinh Điền; 2. TS. Nguyễn Thị Như Ngọc
Tên cơ sở đào tạo: Trường Đại học KHXH&NV – ĐHQG-HCM
+ Tóm tắt nội dung luận án (abstract) – viết dưới dạng tóm tắt bài báo khoa học
Luận án được thực hiện nhằm khảo sát mức độ ảnh hưởng của các yếu tố từ vựng đến độ đo phong cách tiếng Việt (so sánh với tiếng Anh). Sử dụng các phương pháp nghiên cứu thực chứng thuộc cả hướng tiếp cận định lượng và hướng tiếp cận định tính, luận án tính toán tỉ lệ thành công của 79 yếu tố từ vựng thuộc năm nhóm độ đo phong cách: phân bố chiều dài từ, trung bình chiều dài từ, độ phong phú từ vựng, tần số từ khi tính theo thống kê cơ bản, và tần số từ khi tính theo kiểm định thống kê. Kết quả cho thấy tần số từ (từ xưng hô, thực thể có tên, từ tình thái) khi tính theo kiểm định thống kê có độ chính xác rất cao trong việc xác định danh tính tác giả, nghĩa là mức độ ảnh hưởng của chúng đến độ đo phong cách là rất lớn. Ngoài ra, luận án tiến hành đối chiếu mức độ ảnh hưởng của các yếu tố từ vựng đến độ đo phong cách tiếng Việt với tiếng Anh để tìm ra những điểm tương đồng và khác biệt. Về điểm tương đồng: độ phong phú từ vựng không phải là yếu tố hiệu quả để xác định danh tính tác giả, do đó nó không có nhiều ý nghĩa đối với độ đo phong cách trong cả hai ngôn ngữ; ngược lại, tần số từ khi tính theo phương pháp kiểm định thống kê là những yếu tố rất hiệu quả, do đó chúng ảnh hưởng rất lớn đến độ đo phong cách trong cả hai ngôn ngữ. Về điểm khác biệt: phân bố chiều dài từ khi tính theo ký tự chỉ ảnh hưởng mức khá thấp đến độ đo phong cách tiếng Việt, trong khi yếu tố này đạt mức khá cao trong tiếng Anh. Ngược lại, trung bình chiều dài từ khi tính theo âm tiết đạt mức khá cao trong độ đo phong cách tiếng Việt, nhưng chỉ đạt mức khá thấp trong tiếng Anh.
+ Những kết quả của luận án
(1) Các yếu tố thành công nhất là tần số của TXH1, TXH3, TTCT và TTT (khi tính theo kiểm định thống kê, cụ thể là theo phương pháp phân tích tương ứng dựa trên khoảng cách chi-squared. Với tỉ lệ thành công rất cao, các yếu tố này có mức độ ảnh hưởng rất lớn đến ĐĐPC tiếng Việt. Điều này nghĩa là chúng có thể được ưu tiên áp dụng hàng đầu trong nhiệm vụ XĐDTTG.
(2) Các yếu tố cũng nằm trong nhóm thành công, nhưng ở mức khá cao, bao gồm TBCDT tính theo âm tiết, ĐPPTV (chỉ số TTR, W và K), tần số của các lớp từ vựng đánh dấu sắc thái phong cách như là từ Hán Việt, từ nước ngoài, từ mới, thành ngữ (khi tính theo thống kê cơ bản). Với tỉ lệ thành công khá cao, các yếu tố này có mức độ ảnh hưởng khá lớn đến ĐĐPC tiếng Việt. Điều này nghĩa là chúng cũng có thể được ưu tiên áp dụng trong việc XĐDTTG.
(3) Các yếu tố nằm trong nhóm thành công mức khá thấp bao gồm ba yếu tố còn lại trong nhóm chiều dài từ, gồm PBCDT khi tính theo đơn vị ký tự, PBCDT khi tính theo đơn vị âm tiết, và TBCDT tính theo đơn vị ký tự; hai chỉ số ĐPPTV liên quan đến từ xuất hiện một lần và từ xuất hiện hai lần (chỉ số H và S), tần số của TXH1, TXH3, TTCT, TTT (khi tính theo thống kê cơ bản). Với tỉ lệ thành công khá thấp, các yếu tố này có mức độ ảnh hưởng khá ít đến ĐĐPC tiếng Việt. Điều này nghĩa là mặc dù chúng cũng có một chút tiềm năng, tuy nhiên không nên được ưu tiên áp dụng trong việc XĐDTTG.
(4) Trong số 79 YTTV được khảo sát, không có yếu tố nào ở mức rất thấp. Điều này có nghĩa là không có yếu tố nào không có tiềm năng trong việc xác định XĐDTTG, mặc dù tỉ lệ thành công có sự khác biệt lớn giữa các yếu tố và giữa các phương pháp tính toán.
(5) Nhìn chung, với cùng một yếu tố (ví dụ như tần số TXH1), tỉ lệ thành công của phương pháp kiểm định thống kê cao hơn so với phương pháp thống kê cơ bản
(6) Ngoài ra, xét về số lượng TG, nhìn chung, những lượt thực nghiệm càng ít TG thì kết quả XĐDTTG càng chính xác. Xét về thông tin TG, nhìn chung, những kết quả cao nhất thường là trường hợp XĐDTTG cho các TG ứng viên thuộc các nhóm xã hội học khác nhau, những kết quả thấp nhất thường là trường hợp TG nữ là nhà nghiên cứu.
Việc đối chiếu mức độ ảnh hưởng của các YTTV đối với ĐĐPC trên ngữ liệu tiếng Việt và trên ngữ liệu tiếng Anh là có ý nghĩa rất lớn. Kết quả, luận án nhận thấy có những điểm tương đồng và khác biệt sau:
(7) Điểm tương đồng: ĐPPTV không có nhiều ý nghĩa đối với cả hai ngôn ngữ, trong khi tần số TXH1, TXH3 và tần số TTT (khi tính theo kiểm định thống kê) là những yếu tố rất hiệu quả để XĐDTTG. Ngoài ra, mức độ chính xác càng tăng khi số lượng TG ứng viên càng giảm. Kết quả cao nhất thường thuộc về trường hợp tối thiểu, trong đó chỉ có hai TG ứng viên.
(8) Điểm khác biệt: PBCDT là yếu tố chỉ ảnh hưởng khá ít đến ĐĐPC tiếng Việt nhưng đạt mức khá lớn đến ĐĐPC tiếng Anh. Kết quả PBCDT khi tính theo ký tự cho thấy độ chính xác tăng lên khi tăng chiều dài của từ. Do đó, khi đối chiếu tiếng Anh và tiếng Việt, độ chính xác của yếu tố này trong tiếng Anh cao hơn trong tiếng Việt. Ngược lại, TBCDT khi tính theo âm tiết có ảnh hưởng khá lớn đến ĐĐPC tiếng Việt nhưng không ảnh hưởng nhiều đến ĐĐPC tiếng Anh.
Như vậy, các YTTV cùng với tỉ lệ thành công của chúng trong việc XĐDTTG được đánh giả một cách khá toàn diện. Luận án đã tìm được tập hợp các YTTV có tỉ lệ thành công ở mức cao và vẫn đảm bảo năng lực xác định TG của nó ngay cả khi ngưỡng tiêu chuẩn được tăng lên để đảm bảo hiệu lực trong các tình huống pháp lý, ví dụ như điều tra tội phạm. Do đó, TG luận án đề xuất một quy trình có thể được áp dụng để góp phần đưa ra manh mối giải quyết các vụ án liên quan đến văn bản ẩn danh, nặc danh hoặc mạo danh.
+ Các ứng dụng/ khả năng ứng dụng trong thực tiễn hoặc những vấn đề còn bỏ ngỏ cần tiếp tục nghiên cứu:
Luận án đã đánh giá mức độ ảnh hưởng của các YTTV đến ĐĐPC tiếng Việt để tìm ra được những yếu tố giúp cho nhiệm vụ XĐDTTG chính xác và hiệu quả. Đồng thời, luận án còn đối chiếu mức độ ảnh hưởng của những YTTV này đến ĐĐPC trong tiếng Anh để thấy được những sự tương đồng và khác biệt giữa hai ngôn ngữ, góp phần mở rộng kiến thức về ĐĐPC tiếng Việt so với các ngôn ngữ khác trên thế giới. Luận án này nhằm mục đích đáp ứng những yêu cầu về sự đổi mới trong Phong cách trắc học. Với vai trò là một công trình nghiên cứu khoa học, luận án trình bày các kết quả tìm được dựa trên quy mô thực nghiệm lớn với nguồn ngữ liệu đảm bảo độ tin cậy để làm nền tảng cho các hướng phát triển tiếp theo.
Nếu khắc phục được những hạn chế đã được chỉ ra ở trên, bài toán tự động XĐDTTG trên văn bản tiếng Việt sẽ có nhiều bước phát triển mạnh mẽ. Trên cơ sở đó, công tác điều tra cũng sẽ gặt hái được nhiều thành công hơn, đặc biệt là trong kỷ nguyên công nghệ thông tin như hiện nay.
Hãy là người bình luận đầu tiên