Luận án Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng
Khi dữ liệu tăng theo cấp số nhân, chất lượng dữ liệu để xử lý bằng khai phá dữ liệu,
nhận dạng mẫu, xử lý hình ảnh và các thuật toán học máy, … giảm dần. Dữ liệu kích thước
lớn hơn dẫn đến sự phổ biến của dữ liệu nhiễu, không liên quan và dư thừa. Điều đó làm tăng
tỷ lệ lỗi, giảm độ chính xác dự báo của các thuật toán học máy. Vấn đề chính là làm thế nào
để cải thiện được hiệu quả phân lớp dựa trên những tri thức học được từ dữ liệu. Một trong
những phương pháp cải thiện hiệu quả phân lớp như vậy là lựa chọn thuộc tính. Nếu ta chọn
được các thuộc tính có liên quan đến nhãn lớp và loại bỏ các thuộc tính nhiễu, dư thừa, thì ta
sẽ có được tập dữ liệu tốt hơn cho việc phân lớp. Điều đó giúp nâng cao hiệu quả phân lớp
mà cụ thể là độ chính xác phân lớp, đồng thời giảm thời gian huấn luyện và kiểm tra [4], [5],
[6].
Có thể định nghĩa lựa chọn thuộc tính là một quá trình tìm ra một tập con các thuộc
tính từ M tập thuộc tính của tập dữ liệu ban đầu, như vậy phải xác định tiêu chuẩn lựa chọn
thuộc tính. Theo cách này, kích cỡ của không gian thuộc tính được rút ngắn tối đa theo một
tiêu chuẩn định lượng nhất định. Khi kích cỡ của một lĩnh vực được mở rộng, số phần tử của
tập dữ liệu sẽ tăng lên, vì vậy việc tìm kiếm một tập đại diện tốt nhất thường gặp khó khăn và
có nhiều vấn đề liên quan đến tập được chọn. Nhìn chung, một thuật toán lựa chọn gồm 4
bước cơ bản: sinh tập con, lượng giá tập con, điều kiện dừng và xác nhận kết quả.
Quá trình sinh tập con là một thủ tục tìm kiếm, về cơ bản nó sinh ra những tập con
dùng cho việc lượng giá. Gọi N là số các thuộc tính của tập dữ liệu gốc ban đầu, thì tổng số
các tập con có thể được sinh ra sẽ là 2N, 2N tập này sẽ liệt kê toàn bộ các tập con của không
gian. Mỗi tập con được sinh ra bằng thuật toán cần được lượng giá trị bằng một tiêu chuẩn
lượng giá trị nhất định và được so sánh với tập con tốt nhất đã tìm được trước nó.
Lựa chọn các thuộc tính có thể tiến hành theo hai cách: cách thứ nhất là xếp loại các
thuộc tính theo một tiêu chuẩn nào đó và lấy ra k thuộc tính đầu tiên, do đó cách này là dựa
vào ngưỡng để chọn thuộc tính. Cách thứ hai là chọn ra tập con nhỏ nhất mà không làm giảm
đi quá trình học, do đó với cách này tự động xác định số lượng thuộc tính. Lựa chọn thuộc
tính có thể dựa vào các mô hình, các chiến lược tìm kiếm, thước đo chất lượng thuộc tính và
ước lượng.
nhận dạng mẫu, xử lý hình ảnh và các thuật toán học máy, … giảm dần. Dữ liệu kích thước
lớn hơn dẫn đến sự phổ biến của dữ liệu nhiễu, không liên quan và dư thừa. Điều đó làm tăng
tỷ lệ lỗi, giảm độ chính xác dự báo của các thuật toán học máy. Vấn đề chính là làm thế nào
để cải thiện được hiệu quả phân lớp dựa trên những tri thức học được từ dữ liệu. Một trong
những phương pháp cải thiện hiệu quả phân lớp như vậy là lựa chọn thuộc tính. Nếu ta chọn
được các thuộc tính có liên quan đến nhãn lớp và loại bỏ các thuộc tính nhiễu, dư thừa, thì ta
sẽ có được tập dữ liệu tốt hơn cho việc phân lớp. Điều đó giúp nâng cao hiệu quả phân lớp
mà cụ thể là độ chính xác phân lớp, đồng thời giảm thời gian huấn luyện và kiểm tra [4], [5],
[6].
Có thể định nghĩa lựa chọn thuộc tính là một quá trình tìm ra một tập con các thuộc
tính từ M tập thuộc tính của tập dữ liệu ban đầu, như vậy phải xác định tiêu chuẩn lựa chọn
thuộc tính. Theo cách này, kích cỡ của không gian thuộc tính được rút ngắn tối đa theo một
tiêu chuẩn định lượng nhất định. Khi kích cỡ của một lĩnh vực được mở rộng, số phần tử của
tập dữ liệu sẽ tăng lên, vì vậy việc tìm kiếm một tập đại diện tốt nhất thường gặp khó khăn và
có nhiều vấn đề liên quan đến tập được chọn. Nhìn chung, một thuật toán lựa chọn gồm 4
bước cơ bản: sinh tập con, lượng giá tập con, điều kiện dừng và xác nhận kết quả.
Quá trình sinh tập con là một thủ tục tìm kiếm, về cơ bản nó sinh ra những tập con
dùng cho việc lượng giá. Gọi N là số các thuộc tính của tập dữ liệu gốc ban đầu, thì tổng số
các tập con có thể được sinh ra sẽ là 2N, 2N tập này sẽ liệt kê toàn bộ các tập con của không
gian. Mỗi tập con được sinh ra bằng thuật toán cần được lượng giá trị bằng một tiêu chuẩn
lượng giá trị nhất định và được so sánh với tập con tốt nhất đã tìm được trước nó.
Lựa chọn các thuộc tính có thể tiến hành theo hai cách: cách thứ nhất là xếp loại các
thuộc tính theo một tiêu chuẩn nào đó và lấy ra k thuộc tính đầu tiên, do đó cách này là dựa
vào ngưỡng để chọn thuộc tính. Cách thứ hai là chọn ra tập con nhỏ nhất mà không làm giảm
đi quá trình học, do đó với cách này tự động xác định số lượng thuộc tính. Lựa chọn thuộc
tính có thể dựa vào các mô hình, các chiến lược tìm kiếm, thước đo chất lượng thuộc tính và
ước lượng.
Bạn đang xem 20 trang mẫu của tài liệu "Luận án Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- luan_an_ky_thuat_hoc_may_phoi_hop_va_tien_xu_ly_du_lieu_tron.pdf
- 2. Tóm tắt Luận án tiến sĩ (24 trang) - Tiếng Việt.pdf
- 3. Tóm tắt Luận án tiến sĩ (24 trang) - Tiếng Anh.pdf
- 4. Trang thông tin những đóng góp mới - Tiếng Việt.pdf
- 5. Trang thông tin những đóng góp mới - Tiếng Anh.pdf
- 20220305_190_QD thanh lap HD danh gia LATS cap co so NCS Hoang Ngoc Thanh.pdf
- CV dang web Bo_NCS Hoang Ngoc Thanh.pdf
Nội dung text: Luận án Kỹ thuật học máy phối hợp và tiền xử lý dữ liệu trong việc nâng cao chất lượng phân lớp của các hệ thống phát hiện xâm nhập mạng
- 148 Bảng 5.23. Các chỉ số đánh giá của bộ phân lớp lai đề xuất Tấn công TP FP TN FN Accuracy Sensitivity Specifity FPR FNR Worms 33 208 82080 11 0.9973 0.7500 0.9975 0.0025 0.2500 Shellcode 365 1367 80587 13 0.9832 0.9656 0.9833 0.0167 0.0344 Backdoor 413 2366 79383 170 0.9692 0.7084 0.9711 0.0289 0.2916 Analysis 336 3313 78342 341 0.9556 0.4963 0.9594 0.0406 0.5037 Recce 2989 299 78537 507 0.9902 0.8550 0.9962 0.0038 0.1450 DoS 1124 83 78160 2965 0.9630 0.2749 0.9989 0.0011 0.7251 Fuzzers 4394 966 75304 1668 0.9680 0.7248 0.9873 0.0127 0.2752 Exploits 8529 683 70517 2603 0.9601 0.7662 0.9904 0.0096 0.2338 Generic 18143 0 63461 728 0.9912 0.9614 1.0000 0.0000 0.0386 Normal 35940 781 44551 1060 0.9776 0.9714 0.9828 0.0172 0.0286 Các kết quả phân lớp trên cũng được dùng để so sánh với một số nghiên cứu gần đây về IDS sử dụng cùng tập dữ liệu UNSW-NB15. Bảng 5.24 so sánh chỉ số Accuracy với các kết quả đạt được của các bài báo [84], [130] và [131]. Bảng 5.25 so sánh chỉ số Sensitivity với kết quả đạt được của các bài báo [84] và [141]. Các ô được tô đỏ là các ô cho kết quả tốt nhất. Theo đó, bộ phân lớp lai đề xuất đạt Accuracy tốt hơn các bài báo khác ở các kiểu tấn công Recce, Exploits và Generic. Về độ nhạy Sensitivity, bộ phân lớp lai đề xuất tốt hơn các bài báo khác ở phần lớn các kiểu tấn công trừ kiểu tấn công Generic và Normal. Bảng 5.24. So sánh chỉ số Accuracy với một số nghiên cứu gần đây Chỉ sốAccuracy Tấn công Bộ phân lớp lai đề xuất [84] [130] [131] Worms 0.9973 0.9978 0.9992 0.9728 Shellcode 0.9832 0.9833 0.9940 0.9992 Backdoor 0.9692 0.9793 0.9911 0.9906 Analysis 0.9556 0.9930 0.9926 0.9944 Recce 0.9902 0.9618 0.9533 0.9874 DoS 0.9630 0.9571 0.9490 0.9814 Fuzzers 0.9680 0.9504 0.9147 0.9892 Exploits 0.9601 0.9358 0.9012 0.9391 Generic 0.9912 0.9870 0.9823 0.9834 Normal 0.9776 94.59 93.54 0.9816 Bảng 5.25. So sánh chỉ số Sensitivity với một số nghiên cứu gần đây Chỉ sốSensitivity Tấn công Bộ phân lớp lai đề xuất [84] [141] Worms 0.7500 0.1837 - Shellcode 0.9656 0.3639 - Backdoor 0.7084 0.6732 - Analysis 0.4963 0.2045 - Recce 0.8550 0.4604 0.7170 DoS 0.2749 0.1429 0.0500 Fuzzers 0.7248 0.6442 - Exploits 0.7662 0.7622 0.5464 Generic 0.9614 0.8137 0.9672 Normal 0.9714 0.9739 0.9800
- 150 và giảm mẫu so với trường hợp sử dụng các kỹ thuật tăng và giảm mẫu truyền thống. Tuy nhiên, việc sử dụng các kỹ thuật tăng và giảm mẫu cải tiến cũng sẽ làm tăng chi phí tính toán ×( −1) cho việc lựa chọn thuộc tính với độ phức tạp thời gian là ( ). 2 • Với giải pháp sử dụng kỹ thuật phối hợp: luận án đã đề xuất một giải pháp lai khi xây dựng các bộ phân lớp cho các IDS trên cơ sở kết hợp đồng thời 3 kỹ thuật: kỹ thuật lựa chọn thuộc tính mFFC và mBFE; kỹ thuật tăng mẫu và giảm mẫu kết hợp mFFC và mBFE và các kỹ thuật phối hợp đồng nhất và không đồng nhất. Trong các thực nghiệm, tập dữ liệu UNSW-NB15 đã được sử dụng để huấn luyện và kiểm tra đánh giá, đây là tập dữ liệu có nhiều bản ghi tấn công tổng hợp đương đại chưa được nhiều nhà nghiên cứu sử dụng. Bên cạnh đó, luận án cũng đã sử dụng chỉ số đánh giá F- Measure để đánh giá chất lượng phân lớp của các IDS trong các thử nghiệm của luận án. Điều này phù hợp với các tập dữ liệu huấn luyện mất cân bằng lớp vàcó ý nghĩa quan trọng, góp phần nâng cao hiệu quả đánh giá. Bên cạnh những kết quả đạt được, kết quả nghiên cứu của luận án cũng để lại những tồn tại, hạn chế và định hướng phát triển trong tương lai như sau: (1) Thời gian huấn luyện các mô hình phân lớp lai còn lớn, nhất là khi sử dụng các bộ phân lớp phối hợp không đồng nhất trong mô hình. Việc phối hợp đúng đắn các thuật toán để xây dựng một mô hình phân lớp lai, đa nhãn và đáp ứng thời gian thực là vấn đềcần được tiếp tục nghiên cứu. (2) Năng lực xử lý dữ liệu cũng như tính toán của hệ thống đóng vai trò quan trọng trong việc khai thác các thuật toán học máy. Việc nâng cao hiệu quả xử lý theo hướng tiếp cận xử lý song song cũng như việc tối ưu hóa các tham số / siêu tham số của các kỹ thuật học máy là vấn đề còn bỏ ngỏ. 6.2 Đánh giá ý nghĩa học thuật và thực tiễn của luận án Về mặt học thuật: Kết quả nghiên cứu của luận án mang lại có ý nghĩa khoa học, kết quả thực nghiệm trên tập dữ liệu về an ninh mạng UNSW-NB15 cho thấy, so với các nghiên cứu hiện có cho đến nay của nhiều nhà nghiên cứu, các giải pháp đề xuất đã giúp nâng cao chất lượng phân lớp khi xây dựng các IDS, cụ thể là các đề xuất: (1) Đề xuất 2 thuật toán lựa chọn thuộc tính trên cơ sở cải tiến 2 thuật toán lựa chọn thuộc tính FFC và BFE đã biết. (2) Cải tiến các kỹ thuật tăng mẫu (oversampling) và giảm mẫu (undersampling) tập dữ liệu huấn luyện. (3) Xây dựng các bộ phân lớp lai trên cơ sở kết hợp các kỹ thuật tiền xử lý dữ liệu cải tiến nêu trên với kỹ thuật xây dựng bộ phân lớp phối hợp (ensemble classifier). Về mặt thực tiễn: Việc nâng cao chất lượng phân lớp của các IDS là yêu cầu cấp thiết trong giai đoạn hiện nay, khi mà lưu lượng truy cập mạng không ngừng gia tăng, cũng như các hình thức tấn công mạng ngày càng đa dạng và phức tạp, gây racác hậu quả nghiêm trọng ở nhiều mặt của đời sống, từ kinh tế, xã hội đến an ninh, quốc phòng, Kết quả nghiên cứu của luận án là cơ sở quan trọng giúp các nhà quản trị mạng ở các cơ quan, doanh nghiệp có được cảnh báo sớm một cách nhanh chóng và chính xác, để từ đó có giải pháp ứng phó phù hợp, giảm thiểu hậu quả do tấn công mạng gây ra.
- TÀI LIỆU THAM KHẢO [1] S. M. Othman, F. M. Ba-Alwi, N. T. Alsohybe and A. Y. Al-Hashida, "Intrusion detection model using machine learning algorithm on Big Data environment," J Big Data, vol. 5, no. 34 2018. [2] A. Thakkar and R. Lohiya, "A survey on intrusion detection system: feature selection, model, performance measures, application perspective, challenges, and future research directions," Artificial Intelligence Review, vol. 55, p. 453–563, 2022. [3] A. Khraisat, I. Gondal, P. Vamplew and J. Kamruzzaman, "Survey of intrusion detection systems: techniques, datasets and challenges," Cybersecurity, vol. 2, no. 1, pp. 1-22, 2019. [4] H. I. Alsaadi, R. M. Almuttairi, O. Bayat and a. O. N. Ucani, "Computational intelligence algorithms to handle dimensionality reduction for enhancing intrusion detection system," J. Inf. Sci. Eng., vol. 36, no. 2, pp. 293-308, 2020. [5] O. Almomani, "A feature selection model for network intrusion detection system based on PSO, GWO, FFA and GA algorithms," Symmetry (Basel), vol. 12, no. 6, pp. 1-20, 2020. [6] M. S. Bonab, A. Ghaffari, F. S. Gharehchopogh and P. Alemi, "A wrapper-based feature selection for improving performance of intrusion detection systems," Int. J. Commun. Syst., vol. 33, no. 12, pp. 1-25, 2020. [7] R. Roberto, R. José and A.-R. Jesús, "Heuristic Search over a Ranking for Feature Selection," Lecture Notes in Computer Science, vol. 3512, pp. 742-749, 2005. [8] N. Junsomboon, "Combining Over-Sampling and Under-Sampling Techniques for Imbalance Dataset," in Proceedings of the 9th International Conference on Machine Learning and Computing, 2017. [9] S. Bagui and K. Li, "Resampling imbalanced data for network intrusion detection datasets," Journal of Big Data, vol. 8, no. 6, 2021. [10] H. Ahmed, A. Hameed and N. Bawany, "Network intrusion detection using oversampling technique and machine learning algorithms," PeerJ Computer Science 8:e820 DOI 10.7717/peerj-cs.820, 2022. [11] N. V. Chawla, K. W. Bowyer, L. O. Hall and W. P. Kegelmeyer, "SMOTE: Synthetic Minority Over-sampling Technique," Journal of Artificial Intelligence Research, p. 321– 357, 2002. [12] F. Last, G. Douzas and F. Bação, "Oversampling for Imbalanced Learning Based on K- Means and SMOTE," CoRR abs/1711.00837, 2017. [13] Y. Pristyanto, A. F. Nugraha, A. Dahlan, L. A. Wirasakti, A. A. Zein and I. Pratama, "Multiclass Imbalanced Handling using ADASYN Oversampling and Stacking Algorithm," 2022," in 2022 16th International Conference on Ubiquitous Information Management and Communication, doi: 10.1109/IMCOM53663.2022.9721632, 2022. [14] A. Pathak, "Analysis of Different SMOTE based Algorithms on Imbalanced Datasets," International Research Journal of Engineering and Technology (IRJET), vol. 8, no. 8, pp. 4111-4114, 2021. [15] T. Elhassan, M. Aljurf, F. Al-Mohanna and M. Shoukri, "Classification of Imbalance Data using Tomek Link (T-Link) Combined with Random Under-Sampling (RUS) as a Data Reduction Method," Journal of Informatics and Data Mining, vol. 1, 2016. [16] D. Guan, W. Yuan, Y.-K. Lee and S. Lee, "Nearest neighbor editing aided by unlabeled data," Information Sciences, vol. 179, pp. 2273-2282, 2009.
- [34] M. Torabi, N. I. Udzir, M. T. Abdullah and R. Yaakob, "A Review on Feature Selection and Ensemble Techniques for Intrusion Detection System," International Journal of Advanced Computer Science and Applications, vol. 15, no. 5, pp. 538-553, 2021. [35] Z. Liu, R. Wang, M. Tao and X. Cai, "A class-oriented feature selection approach for multi-class imbalanced network traffic datasets based on local and global metrics fusion," Neurocomputing, vol. 168, pp. 365-381, 2015. [36] Y. Zhu, J. Liang, J. Chen and Z. Ming, "An improved NSGA-III algorithm for feature selection used in intrusion detection," Knowledge-Based Systems, vol. 116, pp. 74-85, 2017. [37] V. B. Vaghela, K. H. Vandra and N. K. Modi, "Entropy Based Feature Selection For Multi- Relational Naïve Bayesian Classifier," Journal of International Technology and Information Management, vol. 23, no. 1, pp. 13-26, 2014. [38] Z. Weidong, F. Jingyu and L. Yongmin, "Using Gini-Index for Feature Selection in Text Categorization," in 3rd International Conference on Information, Business and Education Technology, 2014. [39] A. R. A. Yusof, N. I. Udzir, A. Selamat, H. Hamdan and M. T. Abdullah, "Adaptive feature selection for denial of services (DoS) attack," in 2017 IEEE Conference on Application, Information and Network Security (AINS), 2017. [40] N. Sharma, P. Verlekar, R. Ashary and S. Zhiquan, "Regularization and feature selection for large dimensional data," Machine Learning (cs.LG); Numerical Analysis (math.NA); Optimization and Control, arXiv:1712.01975, pp. 1-12, 2019. [41] K. Chen, F. Y. Zhou and X. F. Yuan, "Hybrid particle swarm optimization with spiral- shaped mechanism for feature selection," Expert Systems with Applications, vol. 128, pp. 140-156, 2019. [42] B. Ma and Y. Xia, "A tribe competition-based genetic algorithm for feature selection in pattern classification," Applied Soft Computing, vol. 58, pp. 328-338, 2017. [43] T. Mehmod and H. B. M. Rais, "Ant colony optimization and feature selection for intrusion detection," in Advances in Machine Learning and Signal Processing, vol. 387, Springer International Publishing, 2016, pp. 305-312. [44] F. Kuang, S. Zhang, Z. Jin and W. Xu, "A novel SVM by combining kernel principal component analysis and improved chaotic particle swarm optimization for intrusion detection," Soft Computing, vol. 19, no. 5, pp. 1187-1199, 2015. [45] M. R. G. Raman, N. Somu, K. Kirthivasan, R. Liscano and V. S. S. Sriram, "An efficient intrusion detection system based on hypergraph - Genetic algorithm for parameter optimization and feature selection in support vector machine," Knowledge-Based Systems, vol. 134, pp. 1-12, 2017. [46] M. H. Ali, B. A. D. A. Mohammed, A. Ismail and M. F. Zolkipli, "A New Intrusion Detection System Based on Fast Learning Network and Particle Swarm Optimization," IEEE Access, vol. 6, pp. 20255-20261, 2018. [47] P. T. T. Hồng and N. T. Thủy, "Đánh giá các kỹ thuật lựa chọn đặc trưng cho bài toán phân loại biểu hiện gen," Tạp chí khoa học nông nghiệp Việt Nam, vol. 14, no. 3, pp. 461- 468, 2016. [48] J. Leevy, T. Khoshgoftaar, R. Bauder and N. Seliya, "A survey on addressing high-class imbalance in big data," Journal of Big Data, vol. 5, no. 1, 2018. [49] J. Johnson and T. Khoshgoftaar, "Survey on deep learning with class imbalance," Journal of Big Data, vol. 6, no. 1, 2019.
- [66] A. H. Hamamoto, L. F. Carvalho, L. D. H. Sampaio, T. Abrão and M. L. Proença, "Network Anomaly Detection System using Genetic Algorithm and Fuzzy Logic," Expert Systems with Applications, vol. 92, pp. 390-402, 2018. [67] W. L. Al-Yaseen, Z. A. Othman and M. Z. A. Nazri, "Multi-level hybrid support vector machine and extreme learning machine based on modified K-means for intrusion detection system," Expert Systems with Applications, vol. 67, pp. 296-303, 2017. [68] I. S. Thaseen and C. A. Kumar, "Intrusion detection model using fusion of chi-square feature selection and multi class SVM," Journal of King Saud University Computer and Information Sciences, vol. 29, pp. 462-472, 2017. [69] R. A. R. Ashfaq, X. Z. Wang, J. Z. Huang, H. Abbas and Y. L. He, "Fuzziness based semi- supervised learning approach for intrusion detection system," Information Sciences, vol. 378, pp. 484-497, 2017. [70] U. Ravale, N. Marathe and P. Padiya, "Feature selection based hybrid anomaly intrusion detection system using K Means and RBF kernel function," Procedia Computer Science, vol. 45, pp. 428-435, 2015. [71] V. Hajisalem and S. Babaie, "A hybrid intrusion detection system based on ABC-AFS algorithm for misuse and anomaly detection," Computer Networks, vol. 136, pp. 37-50, 2018. [72] C. Khammassi and S. Krichen, "A GA-LR wrapper approach for feature selection in network intrusion detection," Computers & Security, vol. 70, pp. 255-277, 2017. [73] M. R. G. Raman, N. Somu, K. Kirthivasan, R. Liscano and V. S. S. Sriram, "An efficient intrusion detection system based on hypergraph - Genetic algorithm for parameter optimization and feature selection in support vector machine," Knowledge-Based Systems, vol. 134, pp. 1-12, 2017. [74] S. Shitharth and D. P. Winston, "An enhanced optimization based algorithm for intrusion detection in SCADA network," Computers & Security, vol. 70, pp. 16-26, 2017. [75] S. M. H. Bamakan, H. Wang, T. Yingjie and Y. Shi, "An effective intrusion detection framework based on MCLP/SVM optimized by time-varying chaos particle swarm optimization," Neurocomputing, vol. 199, pp. 90-102, 2016. [76] H. Wang, J. Gu and S. Wang, "An effective intrusion detection framework based on SVM with feature augmentation," Knowledge-Based Systems, vol. 136, pp. 130-139, 2017. [77] S. Roshan, Y. Miche, A. Akusok and A. Lendasse, "Adaptive and online network intrusion detection system using clustering and Extreme Learning Machines," Journal of The Franklin Institute, vol. 355, pp. 1752-1779, 2018. [78] C. Guo, Y. Ping, N. Liu and S. S. Luo, "A two-level hybrid approach for intrusion detection," Neurocomputing, vol. 214, pp. 391-400, 2016. [79] S. Y. Ji, B. K. Jeong, S. Choi and D. H. Jeong, "A multi-level intrusion detection method for abnormal network behaviors," Journal of Network and Computer Applications, vol. 62, pp. 9-17, 2016. [80] A. A. Aburomman and M. B. I. Reaz, "A novel weighted support vector machines multiclass classifier based on differential evolution for intrusion detection systems," Information Sciences, vol. 414, pp. 225-246, 2017. [81] A. S. Amira, S. E. O. Hanafi and A. E. Hassanien, "Comparison of classification techniques applied for network intrusion detection and classification," Journal of Applied Logic, vol. 24, pp. 109-118, 2017.
- [99] A. P. F. Chan, W. W. Y. Ng, D. S. Yeung and E. C. C. Tsang, "Comparison of different fusion approaches for network intrusion detection using ensemble of RBFNN," in 2005 International Conference on Machine Learning and Cybernetics, 2005. [100] A. Borji, Berlin and Heidelberg, "Combining Heterogeneous Classifiers for Network Intrusion Detection," in Advances in Computer Science - ASIAN 2007, 2007. [101] B. A. Tama and K. H. Rhee, "A combination of PSO-based feature selection and tree- based classifiers ensemble for intrusion detection systems," Advances in Computer Science and Ubiquitous Computing, Springer, pp. 489-495, 2015. [102] J. Kim, H. L. T. Thu and H. Kim, "Long Short Term Memory Recurrent Neural Network Classifier for Intrusion Detection," in International Conference on Platform Technology and Service, 2016. [103] B. Abolhasanzadeh, "Nonlinear dimensionality reduction for intrusion detection using auto-encoder bottleneck features," in 7th Conference on Information and Knowledge Technology, 2015. [104] U. Fiore, F. Palmieri, A. Castiglione and A. D. Santis, "Network anomaly detection with the restricted Boltzmann machine," Neurocomputing, vol. 122, pp. 13-23, 2013. [105] N. Gao, L. Gao, Q. Gao and H. Wang, "An Intrusion Detection Model Based on Deep Belief Networks," in Second International Conference on Advanced Cloud and Big Data, 2014. [106] M. Z. Alom, V. Bontupalli and T. M. Taha, "Intrusion detection using deep belief networks," in National Aerospace and Electronics Conference, 2015. [107] H. Hota and A. K. Shrivas, "Data mining approach for developing various models based on types of attack and feature selection as intrusion detection systems (IDS)," Intelligent Computing, Networking, and Informatics, Springer, pp. 845-851, 2014. [108] M . S. Pervez and D. M. Farid, "Feature selection and intrusion classification in NSL- KDDCup99 dataset employing SVMs," in Software, Knowledge, Information Management and Applications (SKIMA), 2014 8th International Conference on, 2014. [109] A. C. Enache and V. V. Patriciu, "Intrusions detection based on support vector machine optimized with swarm intelligence," in Applied Computational Intelligence and Informatics (SACI), 2014 IEEE 9th International Symposium on, 2014. [110] N. Jankowski and K. Gra˛bczewski, "Heterogenous committees with competence analysis," in Hybrid Intelligent Systems. HIS’05. Fifth International Conference on, IEEE, 2005. [111] Y. Chen and Y. Zhao, "A novel ensemble of classifiers for microarray data classification," Applied soft computing, vol. 8, pp. 1664-1669, 2008. [112] A. Eleyan, H. Özkaramanli and H. Demirel, "Weighted majority voting for face recognition from low resolution video sequences," in Soft Computing, Computing with Words and Perceptions in System Analysis, Decision and Control, 2009. ICSCCW 2009. Fifth International Conference on, IEEE, 2009. [113] J. Richiardi and A. Drygajlo, "Reliability-based voting schemes using modality- independent features in multi-classifier biometric authentication," Multiple Classifier Systems, Springer, pp. 377-386, 2007. [114] A. Kausar, M. Ishtiaq, M. A. Jaffar and A. M. Mirza, "Optimization of ensemble based decision using PSO," in Proceedings of the World Congress on Engineering, WCE, 2010.
- softmax aggregation," EURASIP Journal on Information Security, vol. 2019, pp. 1-15, 2019. [131] S. Moualla, K. Khorzom and A. Jafar, "Improving the Performance of Machine Learning- Based Network Intrusion Detection Systems on the UNSW-NB15 Dataset," Computational Intelligence and Neuroscience, vol. 2021, pp. 1-13, 2021. [132] V. V. Cảnh, "Phát hiện xâm nhập mạng sử dụng kỹ thuật học máy," Tạp chí nghiên cứu khoa học và công nghệ quân sự, pp. 105-120, 05-2017. [133] P. V. Huong, L. D. Thuan, L. T. H. Van and D. V. Hung, "Intrusion Detection in IoT Systems Based on Deep Learning Using Convolutional Neural Network," in 6th NAFOSTED Conference on Information and Computer Science (NICS), Ha Noi - Viet Nam, 2019. [134] L. H. Hiep, L. X. Hieu, H. T. Tuyen and D. T. Quy, "Studying a solution for early detection of DDoS attacks based on machine learning algorithms," vol. 227, no. 11, p. 137 – 144, 2022. [135] T. M. Tuấn, P. H. Hảo and T. T. Nam, "Hệ thống phát hiện xâm nhập hai tầng cho các mạng IoT sử dụng máy học," Tạp chí Khoa học Trường Đại học Cần Thơ, vol. 58, no. 2, pp. 43-50, 2022. [136] C. Sergio, D. S. Javier, L. Ibai, O. Ignacio, S. Javier, J. S. Javier and I. T. Ana, "Chapter 5 - Big Data in Road Transport and Mobility Research," in Intelligent Vehicles, Butterworth- Heinemann, 2018, pp. 175-205. [137] Kotthoff, Lars, C. Thornton, H. H. Hoos, F. Hutter and K. Leyton-Brown, "Auto-WEKA: Automatic model selection and hyperparameter optimization in WEKA," Automated Machine Learning - Springer, pp. 81-95, 2019. [138] M. Artur, "Review the performance of the Bernoulli Naïve Bayes Classifier in Intrusion Detection Systems using Recursive Feature Elimination with Cross-validated selection of the best number of features," in The 2020 Annual International Conference on Brain- Inspired Cognitive Architectures for Artificial Intelligence: Eleventh Annual Meeting of the BICA Society, 2021. [139] W. Lian, G. Nie, B. Jia, D. Shi, Q. Fan and Y. Liang, "An Intrusion Detection Method Based on Decision Tree-Recursive Feature Elimination in Ensemble Learning," Mathematical Problems in Engineering, vol. 2020, pp. 1-15, 2020. [140] B. Neal, S. Mittal, A. Baratin, V. Tantia, M. Scicluna, S. Lacoste-Julien and I. Mitliagkas, "A modern take on the bias-variance tradeoff in neural networks," ArXiv, vol. abs/1810.08591, 2018. [141] V. Kumar, D. Sinha, A. K. Das, S. C. Pandey and R. T. Goswami, "An integrated rule based intrusion detection system: analysis on UNSW-NB15 data set and the real time online dataset," Cluster Computing, vol. 23, p. 1397–1418, 2019.