Tin tức - Sự kiện

Đề tài nghiên cứu: Giải pháp nhận dạng và xử lý lỗi trong hạ tầng điện toán đám mây - NCS. Bùi Thanh Khiết

  • 03/11/2022
  • Đề tài nghiên cứu: Giải pháp nhận dạng và xử lý lỗi trong hạ tầng điện toán đám mây
    Chuyên ngành: Khoa học máy tính
    Mã số chuyên ngành: 62.48.01.01
    Họ và tên NCS: Bùi Thanh Khiết
    Tập thể hướng dẫn: PGS.TS. Trần Công Hùng, PGS.TS. Trần Vũ
    Cơ sở đào tạo: Trường ĐH Bách khoa, ĐHQG-HCM
    1. Tóm tắt luận án
    Dịch vụ hạ tầng Điện toán đám mây (ĐTĐM) mang lại sự tiện lợi thiết thực, giúp người dùng triển khai các ứng dụng một cách linh hoạt, đơn giản hóa quá trình thuê, giải phóng tài nguyên trong khi chi phí thuê tài nguyên được tính dựa trên sự phân bổ trong mỗi lần sử dụng (sử-dụng-bao-nhiêu-trả-bấy-nhiêu). Tuy nhiên, lỗi trên dịch vụ hạ tầng ĐTĐM là khó có thể tránh khỏi vì quy mô và hệ thống mạng khổng lồ của trung tâm dữ liệu ĐTĐM cùng với kiến trúc phức tạp gồm hàng ngàn máy chủ vật lý với độ tin cậy khác nhau. Với tính mở, linh hoạt và cấu trúc phức tạp của ĐTĐM dẫn đến nhiều loại lỗi khác nhau từ hệ thống cơ sở hạ tầng, nền tảng đến các ứng dụng trên đó. Lỗi có thể xảy ra ở bất kỳ một tầng cụ thể của ĐTĐM và nó sẽ ảnh hưởng lên tầng trên nó. Nếu lỗi xảy ra ở hệ điều hành của tầng dịch vụ nền tảng có thể dẫn đến các ứng dụng trên dịch vụ phần mềm bị lỗi. Trong khi đó nếu lỗi xảy ra ở ổ cứng của máy chủ vật lý, nó sẽ ảnh hưởng lên tầng dịch vụ cơ sở hạ tầng và tiếp tục dẫn đến lỗi sẽ xảy ở hệ điều hành của tầng dịch vụ nền tảng và tiếp tục ảnh hưởng đến lỗi xảy ra ở ứng dụng của tầng dịch vụ phần mềm. Có thể thấy rằng, lỗi ở dịch vụ hạ tầng đặc biệt là phần cứng sẽ ảnh hưởng, gây thiệt hại lớn đến hệ thống. Việc phát hiện các lỗi phần cứng điển hình và phát triển các kỹ thuật kháng lỗi tương ứng là một vấn đề cấp thiết. Theo đó, ĐTĐM cần có khả năng nhận diện và hành xử hợp lý để đảm bảo tính thông suốt, chất lượng dịch vụ, tránh mất mát dữ liệu ngay cả khi lỗi xảy ra. Khả năng này được được xem là khả năng kháng lỗi (Fault Tolerance) trên hạ tầng ĐTĐM.
    Có hai chiến lược chính trong kháng lỗi trên ĐTĐM gồm kháng lỗi thụ động và kháng lỗi chủ động. Kháng lỗi thụ động nhằm giảm bớt hậu quả do lỗi gây trong quá trình hoạt động của hệ thống khi thực thi các ứng dụng hoặc các dịch vụ trên hệ thống. Mô hình này dựa trên sự phản ứng lại khi có lỗi xảy ra hơn là phản ứng dựa trên dự báo. Ảnh hưởng của lỗi thường được loại bỏ bằng cách sử dụng hệ thống bảo trì. Bên cạnh đó, chiến lược kháng lỗi chủ động nhằm giữ ứng dụng hoặc dịch vụ thực thi đúng bằng cách tránh các lỗi tiềm ẩn thông qua biện pháp ngăn chặn. Từ chủ động trong ngữ cảnh kháng lỗi được định nghĩa là khả năng của hệ thống ở trạng thái chuẩn bị và được kiểm soát trước khi lỗi xảy ra. Trạng thái hệ thống được theo dõi liên tục và khả năng xảy ra lỗi được ước tính bằng các phương pháp thống kê, mô hình toán học. Các hành động cần thiết sau đó được thực hiện để ngăn chặn lỗi xảy ra. Mặc dù những phương pháp kháng lỗi thụ động vẫn phổ biến trong giới nghiên cứu cho đến nay, tuy nhiên, do sự tiến bộ vượt bậc của học máy, trí tuệ nhân tạo, thiết bị ngày càng trở nên thông minh hơn làm gia tăng phạm vi nghiên cứu về khả năng kháng lỗi chủ động. Các khung kháng lỗi ngày càng được mong đợi thông minh hơn để đưa ra các chiến lược khác nhau cho các ngữ cảnh khác nhau của lỗi trong hệ thống nhằm kháng được các dạng lỗi khác nhau. Một cơ chế của điều phối dịch vụ một cách linh hoạt trong ĐTĐM hướng đến kháng lỗi là rất cần thiết. Nói một cách khác, cần xây dựng một khung kháng lỗi đảm bảo cả độ sẵn sàng cao cũng như hiệu quả về việc quản lý, khai thác tài nguyên. Từ đó, luận án tập trung nghiên cứu chiến lược kháng lỗi chủ động nhằm xây dựng một khung kháng lỗi cho hạ tầng hệ thống ĐTĐM. Theo đó, khung kháng lỗi gồm hai thành phần chính gồm bộ phát hiện lỗi trên máy chủ của hạ tầng ĐTĐM và bộ di trú tài nguyên hiệu quả. Trong đó, bộ phát hiện lỗi dựa trên bất thường được đề xuất đảm bảo cho hệ thống kháng lỗi hoạt động chính xác và tăng khả năng phản ứng của hệ thống khi tình huống sắp có lỗi xảy ra. Từ kết quả của mô hình phát hiện lỗi, việc tránh các ảnh hưởng lỗi sẽ được giải quyết thông qua bộ di trú tài nguyên ảo hóa đảm bảo việc sử dụng, khai thác tài nguyên hiệu quả. Để nâng cao khả năng phản ứng linh hoạt cho chiến lược di trú máy ảo, luận án đề xuất bộ điều khiển di trú máy ảo kháng lỗi có khả năng học tăng cường.
    2. Những đóng góp mới của luận án
    • Xây dựng khung kháng lỗi chủ động cho hạ tầng ĐTĐM dựa trên cấu trúc vòng lặp MAPE-K của hệ thống tự trị gồm thành phần giám sát, phân tích lỗi PM, xây dựng chiến lược chiến lược di trú VM kháng lỗi có khả năng học tăng cường, thực thi điều phối tài nguyên PM của hạ tầng ĐTĐM.
    • Đề xuất mô hình phát hiện lỗi trên PM trên hạ tầng ĐTĐM của dựa trên chỉ số vận hành bất thường. Chỉ số vận hành bất thường được xác định từ giá trị biên quyết định của mô hình Fuzzy One Class Support Vector Machine (FOCSVM) – là sự kết hợp của logic mờ và OCSVM để giảm ảnh hưởng nhiễu xuất hiện trong tập dữ liệu huấn luyện. Logic mờ được sử dụng để tính toán các hệ số phạt của mô hình OCSVM nhằm cải thiện hoạt động linh hoạt trong thời gian thực thi cũng như tận dụng kiến thức của chuyên gia. Đề xuất phương pháp phát hiện lỗi đựa trên chỉ số vận hành bất thường, có tên là EWMA-FOCSVM, dựa trên sự theo dõi biến động đột ngột của giá trị biên quyết định trong mô hình FOCSVM bằng biểu đồ Exponentially Weighted Moving Average (EWMA). Các mẫu dữ liệu giám sát được dán nhãn bình thường/lỗi bằng cách sử dụng mô hình EWMA-FOCSVM trong thời gian thực để tạo thành bộ dữ liệu huấn luyện có nhãn cho vấn đề phân tích thông số hiệu năng của máy chủ vật lý liên quan đến lỗi. Việc phân tích thông số hiệu năng của máy chủ vật lý liên quan đến lỗi được đưa về bài toán lựa chọn đặc trưng và được giải quyết bằng cách sử dụng mô hình RFE-RF – là sự kết hợp mô hình Recursive Feature Elimination (RFE) và Random Forest (RF). Các thông số đáng ngờ được xác định thông qua việc xếp hạng thuộc tính của tập dữ liệu.
    • Đề xuất mô hình xây dựng chiến lược di trú máy ảo kháng lỗi dựa trên điều khiển mờ học tăng cường Fuzzy Q-Learning. Việc điều khiển di trú VM để tránh ảnh hưởng từ PM sắp bị lỗi và đảm bảo PM sau khi tiếp nhận VM có chỉ số vận hành bất thường thấp cũng như mức độ sử dụng giữa các tài nguyên trong PM được cân bằng. Thêm vào đó, để nâng cao khả năng thực thi của bộ điều khiển di trú VM kháng lỗi, thành phần tập luật được cập nhật theo cơ chế học tăng cường ngay cả khi bắt đầu hệ thống với tập luật chưa đầy đủ. Đề xuất giải thuật V2PFQL cho việc điều khiển di trú VM kháng lỗi dựa trên Fuzzy Q-Learning. Một trong những sức mạnh của hệ suy diễn mờ là khả năng chuyển đổi tri thức của con người thành một các luật trực quan dưới dạng NẾU-THÌ. Tuy nhiên, trong quá trình thiết kế hệ suy diễn mờ, người thiết kế có thể gặp vấn đề khó khăn khi định nghĩa tập luật như không thể thiết kế tập luật vì không có sẵn tri thức của vấn đề, hoặc chỉ có thể định nghĩa một phần của tập luật, hoặc có thể định nghĩa tập luật nhưng không hiệu quả do dư thừa tập luật hoặc do tập luật không chắc chắn (đúng trong một số trường hợp như lại sai trong một số trường hợp khác). Để giải quyết vấn đề này, luận án đề xuất thuật toán huấn luyện tập luật cho vấn đề di trú máy ảo, được đặt tên V2PFQL-AS, dựa trên sự kết hợp giữa thuật toán V2PFQL và Hệ kiến để hoàn thiện tập luật trong giai đoạn thiết kế hệ suy diễn mờ. Luận án đánh giá hiệu quả của V2PFQL sau khi cập nhật tri thức từ kết quả của quá trình huấn luyện theo thuật toán V2PFQL-AS. Giá trị hàm mục tiêu của bài toán di trú VM kháng lỗi của thuật toán V2PFQL được so sánh với giải thuật RoundRobin (RR), giải thuật tối ưu đàn kiến Inverse Ant System (iAS), giải thuật hệ kiến Ant System (AS), giải thuật Max-Min Ant System (MMAS), giải thuật tối ưu bầy đàn Particle swarm optimization (PSO), giải thuật luyện kim Simulated Annealing (SA).

    Tệp đính kèm:

    Vui lòng nhập nội dung
    Vui lòng nhập mã xác nhận

    Hãy là người bình luận đầu tiên