Tên đề tài: Tăng cường khả năng hiểu ảnh của hệ thống truy vấn ảnh
Ngành: Khoa học Máy tính
Mã số ngành: 62480101
Họ tên nghiên cứu sinh: Phùng Thái Thiên Trang
Khóa đào tạo: 2015
Người hướng dẫn khoa học: PGS.TS. Lý Quốc Ngọc, PGS.TS. Masayuki Fukuzawa
Cơ sở đào tạo: Trường Đại học Khoa học Tự nhiên, ĐHQG.HCM
1. Tóm tắt nội dung luận án
Hệ thống truy vấn ảnh mang lại nhiều lợi ích thiết thực cho các ứng dụng thực tiễn như hỗ trợ các công tác điều tra tội phạm cũng như tìm kiếm sản phẩm tiêu dùng trong thương mại điện tử và tìm kiếm hình ảnh cá nhân. Cải tiến hệ thống truy vấn ảnh nhằm tăng độ chính xác của kết quả tìm kiếm luôn là đề tài thiết yếu trong nghiên cứu khoa học. Các hệ thống truy vấn ảnh vẫn còn nhiều điểm yếu cần phải khắc phục như tăng thêm độ chính xác, hiểu ảnh tốt hơn ở mức ngữ nghĩa, bổ sung tính năng để cho phép người dùng đưa ra yêu cầu truy vấn bằng văn bản kết hợp với ảnh mẫu cần tìm, cho phép người dùng sử dụng thêm từ khoá hoặc câu văn bản bổ sung các yêu cầu mà ảnh mẫu truy vấn chưa thể hiện được để hệ thống thân thiện hơn với người dùng. Ví dụ tìm ảnh giống người trong ảnh nhưng người đó có tóc vàng, mặc áo đỏ, v.v. Ngoài ra, việc tìm cách sử dụng các tri thức có sẵn còn giúp giảm tải cho các hệ thống và tránh lặp lại nhiệm vụ huấn luyện trên tập ảnh lớn, đa dạng, nhờ đó giúp hệ thống hiệu quả hơn.
Đề tài “Tăng cường khả năng hiểu ảnh của hệ thống truy vấn ảnh” là một nghiên cứu nhằm cải thiện hiệu quả cho hệ thống truy vấn ảnh với các tiêu chí như chính xác, tiện dụng và thông minh hơn thông qua việc cải tiến một số công đoạn trong quy trình truy vấn ảnh như: (1) biểu diễn đặc trưng ảnh có tính ngữ nghĩa cao giúp tăng độ chính xác của hệ thống; (2) tích hợp hình ảnh và văn bản giúp người dùng thuận tiện khi truy vấn và giúp hệ thống thông minh hơn trong việc biểu diễn và xử lý các yêu cầu truy vấn; (3) phân cấp dữ liệu giúp tăng hiệu quả truy vấn và tăng hiệu năng cho hệ thống. Với các mục tiêu trên, luận án mong muốn đóng góp một phần công sức vào quá trình phát triển hệ thống truy vấn ảnh nhằm hỗ trợ cho các ứng dụng trong thực tế như công tác giám sát, an ninh và thương mại điện tử ngày càng tốt hơn.
Các đóng góp chính của luận án:
- Xây dựng phả hệ tri thức thuộc tính đối tượng.
- Xây dựng mô hình học thuộc tính đối tượng dựa vào phả hệ tri thức.
- Xây dựng hệ thống truy vấn ảnh (1) dựa vào đặc trưng học sâu, (2) dựa vào học thuộc tính và phả hệ tri thức, (3) tích hợp văn bản và hình ảnh trong truy vấn ảnh.
Đóng góp 1: Luận án xây dựng một phả hệ tri thức đối tượng tổng quát OAO (Object Attribute Ontology), sau đó dựa vào OAO này để xây dựng các phả hệ tri thức đối tượng, cụ thể như phả hệ tri thức về người HAO (Human Attribute Ontology).
Đóng góp 2: Luận án xây dựng mô hình học thuộc tính đối tượng dựa vào phả hệ tri thức. Mô hình này giúp biểu diễn ảnh ở mức chi tiết (mức tinh), mỗi ảnh được biểu diễn thành một vectơ thuộc tính. Đây là bước trung gian trong hệ thống truy vấn. Với kết quả của mô hình học thuộc tính này, hệ thống có thể truy vấn ảnh thông minh và chính xác hơn vì có thể tìm ảnh theo thuộc tính đối tượng.
Đóng góp 3: Luận án đã xây dựng hệ thống truy vấn ảnh để minh chứng cho nhiệm vụ của luận án, thể hiện qua các chiến lược: (1) Tăng cường khả năng hiểu ảnh bằng cách sử dụng mạng học sâu; (2) Tăng cường khả năng hiểu ảnh bằng cách sử dụng phả hệ tri thức và học thuộc tính; (3) Tăng cường khả năng hiểu ảnh bằng cách cho phép truy vấn ảnh với đầu vào truy vấn kết hợp văn bản và hình ảnh.
Luận án đã giải quyết một số thách thức và đạt được một số kết quả như: hiểu ảnh ở mức thuộc tính, tái sử dụng tri thức có sẵn, linh hoạt đầu vào truy vấn và đạt hiệu quả truy vấn cao. Kết quả của luận án được minh chứng qua thực nghiệm trên tập dữ liệu chuẩn và đạt được một số kết quả cao.
2. Những kết quả mới của luận án
Thể hiện sự tăng cường khả năng hiểu ảnh của hệ thống truy vấn ảnh, luận án đề xuất các mô hình truy vấn ảnh sau:
- Mô hình truy vấn ảnh dựa vào đặc trưng học sâu: sử dụng mạng học sâu để xây dựng mô hình rút trích đặc trưng đối tượng trong ảnh mà không phải rút trích đặc trưng toàn ảnh, giúp truy vấn ảnh hiệu quả. Mô hình truy vấn ảnh dựa vào đặc trưng học sâu đáp ứng một lớp rộng các tập dữ liệu ảnh đa dạng. Tuy nhiên mô hình này chưa phát huy khả năng truy vấn ảnh ở mức thuộc tính (mức tinh). Vì vậy, luận án đã đề xuất mô hình truy vấn ảnh dựa vào học thuộc tính và phả hệ tri thức.
- Mô hình truy vấn ảnh dựa vào học thuộc tính và phả hệ tri thức: luận án xây dựng phả hệ tri thức thuộc tính đối tượng, xây dựng mô hình học thuộc tính đối tượng dựa vào phả hệ tri thức thuộc tính đối tượng. Từ kết quả của mô hình học thuộc tính, luận án đã xây dựng mô hình truy vấn ảnh hiệu quả. Phả hệ tri thức thuộc tính đối tượng và học thuộc tính giúp mô hình truy vấn này có thể áp dụng một lớp rộng các tập dữ liệu đặc thù ở mức chi tiết như người, mặt người, trang phục, …
- Luận án bổ sung mô đun cho phép kết hợp văn bản và hình ảnh cho đặc tả câu truy vấn, giúp hệ thống truy vấn ảnh có tính linh hoạt và thông minh hơn.
3. Các ứng dụng/ khả năng ứng dụng trong thực tiễn hay những vấn đề còn bỏ ngỏ cần tiếp tục nghiên cứu
- Các phương pháp đề xuất được triển khai thực nghiệm trên các bộ dữ liệu chuẩn quốc tế trong việc đánh giá kết quả các mô hình truy vấn ảnh. Các kết quả thực nghiệm đã cho thấy các mô hình đề xuất có thể ứng dụng trong các bài toán như tìm kiếm xe, tìm kiếm người, tìm kiếm y phục.
- Bên cạnh các kết quả đạt được, luận án vẫn còn tồn tại những hạn chế nhất định cần được nghiên cứu và mở rộng để nâng cao hiệu quả về truy vấn ảnh. Ngoài ra, cần mở rộng hệ thống để có thể truy vấn ảnh dựa vào mô hình đa phương thức với nền tảng mô hình ngôn ngữ-ảnh lớn (Vision-Language Pre-trained Model).
Hãy là người bình luận đầu tiên