Sau đại học

Truy vấn hiệu quả thông tin thị giác từ dữ liệu lớn để phát triển môi trường thông minh - NCS. Nguyễn Vinh Tiệp

  • 05/07/2019
  • Tên luận án: Truy vấn hiệu quả thông tin thị giác từ dữ liệu lớn để phát triển môi trường thông minh
    Chuyên ngành:         Khoa học máy tính
    Mã số:             62.48.01.01
    Họ tên NCS :             Nguyễn Vinh Tiệp
    Hướng dẫn khoa học:         PGS. TS. Trần Minh Triết, PGS. TS. Dương Anh Đức
    Cơ sở đào tạo :         Trường Đại học Công nghệ thông tin – ĐHQG TP. HCM

    1. TÓM TẮT
    Luận án này tập trung đề xuất một số phương pháp truy vấn hiệu quả với các thể thức truy vấn khác nhau từ kho dữ liệu lớn các ảnh tĩnh hoặc video theo những nhu cầu tìm kiếm khác nhau của người dùng. Ứng với từng thể thức và đối tượng truy vấn, chúng tôi đã có các nghiên cứu sau:
    Truy vấn dựa trên ảnh mẫu, người dùng có thể quan tâm đến (i) cảnh vật chứa trong toàn bộ ảnh mẫu, (ii) một đối tượng duy nhất chứa trong ảnh mẫu hoặc (iii) nhiều đối tượng thuộc nhiều ảnh mẫu khác nhau, cụ thể là người và địa điểm. 
    Truy vấn bằng câu mô tả: trong nhiều trường hợp, nội dung đi kèm do người đăng bài cung cấp không đầy đủ hoặc không đúng với những gì mà hình ảnh thể hiện. Mặt khác, câu truy vấn mô tả của người dùng đôi khi hàm chứa ngữ nghĩa phức tạp. Luận án này đề xuất hệ thống truy vấn trong đó khai thác các khía cạnh khác nhau của một tấm ảnh như: các đối tượng chính, quan hệ về ngữ cảnh giữa các đối tượng, các thuộc tính về địa điểm của ảnh và dữ liệu metadata.
    Để minh họa cho các tiềm năng ứng dụng, chúng tôi xây dựng các hệ thống để minh họa cho ý tưởng tương tác và tiềm năng ứng dụng thực tế: hệ thống khuyến nghị gợi nhớ hình ảnh có liên quan trên mạng xã hội và hệ thống tìm kiếm bằng từ khoá trên tập dữ liệu video lớn.
    Trong quá trình thực hiện luận án, NCS đã công bố 3 bài tạp chí: IJMDEM-2015 (ESCI), Informatica-2017 (Scopus), IJMIR-2019 (Scopus) và 4 bài hội thảo quốc tế : MMSP-2015, MMM-2017, SoICT-2016, MUM-2016.
    2. CÁC ĐÓNG GÓP CHÍNH CỦA LUẬN ÁN
    Luận án có những đóng góp chính sau:
    1.  Cấu trúc không gian trong chỉ mục ngược: đề xuất phương pháp kết hợp file chỉ mục ngược với cấu trúc kim tự tháp không gian (spatial pyramid) để vừa tăng tốc độ và giảm thời gian truy vấn.
    2. Dung hợp phương pháp BOW và thuật toán phát hiện đối tượng: đề xuất phương pháp kiểm tra ràng buộc mới trong đó dung hợp phương pháp BOW và phương pháp phát hiện đối tượng. Đóng góp chính của chúng tôi trong đề xuất này là khai thác hiệu quả mối quan hệ về vị trí của các từ thị giác (visual word) với vị trí đề xuất đối tượng (object instance proposal) được ước lượng bởi bộ phát hiện đối tượng.
    3. Học với đặc trưng cấp cao của mạng DNN: đề xuất phương pháp kết hợp đặc trưng học sâu với mô hình BOW và theo vết địa điểm (scene tracking) để tăng độ phủ của kết quả truy vấn.
    4. Làm giàu ngữ nghĩa ảnh bằng các mạng CNN: đề xuất hệ thống khai thác các đối tượng chính, các thuộc tính liên quan đến không gian, quan hệ giữa các đối tượng trong ảnh và cả dữ liệu metadata cung cấp bởi người dùng để mô tả tất cả các khía cạnh của một frame ảnh.
    3. NHỮNG VẤN ĐỀ CÒN BỎ NGỎ CẦN TIẾP TỤC NGHIÊN CỨU
    Dưới đây là một số hướng phát triển cho một số thể thức truy vấn:
    Đối tượng nhỏ ít đặc trưng: khai thác cấu trúc chỉ mục ngược cho bài toán phát hiện đối tượng để tăng tốc độ truy vấn. 
    Nhóm đối tượng: tích hợp cấu trúc chỉ mục ngược và chiến lược nhánh cận trong việc lưu trữ đặc trưng gương mặt người rút trích từ kho dữ liệu ảnh để tăng tốc độ truy vấn.
    Truy vấn dựa trên ngữ nghĩa: kết hợp với các công cụ tìm kiếm hình ảnh dựa trên văn bản hiện nay để học online và cho kết quả gần với dữ liệu gán nhãn trước đó.
     

    Tệp đính kèm:

    Vui lòng nhập nội dung
    Vui lòng nhập mã xác nhận

    Hãy là người bình luận đầu tiên