1/ Thông tin bài báo
- Tên bài báo: KHAI PHÁ CƠ SỞ DỮ LIỆU TRONG HỆ THỐNG QUẢN LÝ ĐÀO TẠO CỦA TRƯỜNG ĐẠI HỌC KINH TẾ, ĐẠI HỌC HUẾ
- Tác giả: Mai Thu Giang
- Số trang: 123-137
- Năm: 2020
- Nơi xuất bản: Tạp chí Khoa học Đại học Huế: Kinh tế và Phát triển
- Từ khóa: cây quyết định, dự báo, khai phá dữ liệu, phân lớp, trích chọn thuộc tính
2/ Nội dung chính
Bài báo này tập trung vào việc ứng dụng khai phá dữ liệu để dự báo kết quả học tập của sinh viên tại Trường Đại học Kinh tế, Đại học Huế. Nghiên cứu sử dụng dữ liệu từ hệ thống quản lý đào tạo của trường, bao gồm thông tin về sinh viên, điểm số, và các yếu tố liên quan khác. Mục tiêu chính là xây dựng các mô hình dự báo kết quả học tập cuối khóa sau mỗi học kỳ, đồng thời xác định các yếu tố ảnh hưởng đến kết quả này. Kỹ thuật trích chọn thuộc tính và thuật toán cây quyết định, cụ thể là giải thuật J48 trong phần mềm WEKA, được sử dụng để xây dựng và đánh giá mô hình. Kết quả cho thấy rằng các thuộc tính như giới tính, số tín chỉ tích lũy ngành và điểm trung bình chung của từng học kỳ là những yếu tố quan trọng nhất ảnh hưởng đến kết quả học tập, và thuật toán J48 cho kết quả dự báo chính xác cao nhất. Bài viết cũng nhấn mạnh tầm quan trọng của việc khai phá dữ liệu trong giáo dục, không chỉ giúp nhà quản lý giáo dục đưa ra quyết định tốt hơn mà còn hỗ trợ sinh viên trong việc cải thiện kết quả học tập.
Nghiên cứu này đi sâu vào quy trình thu thập, chuẩn hóa và phân tích dữ liệu. Dữ liệu được lấy từ các tác vụ quản lý sinh viên, quản lý đào tạo và đánh giá xếp hạng sinh viên. Tổng cộng có 1551 bản ghi được sử dụng sau khi loại bỏ các bản ghi thiếu thông tin. Các thuộc tính được thu thập bao gồm thông tin cá nhân của sinh viên, điểm số các môn học, tổng số tín chỉ đã học và các thông tin liên quan đến kết quả học tập của từng học kỳ. Điểm cuối khóa được quy đổi thành các nhãn lớp như Xuất sắc, Giỏi, Khá, Trung bình, Yếu và Chưa xếp hạng. Dữ liệu sau đó được chuyển đổi sang định dạng ARFF để có thể sử dụng trong WEKA. Phương pháp nghiên cứu bao gồm việc sử dụng giải thuật BestFirst-CfsSubsetEval để trích chọn thuộc tính, và các giải thuật cây quyết định khác nhau (J48, Decision Stump, HoeffdingTree, LMT, RandomForest, RandomTree và REPTree) để xây dựng mô hình dự báo. Các mô hình được đánh giá bằng phương pháp đánh giá chéo 10 lần để đảm bảo tính khách quan và độ tin cậy.
Kết quả nghiên cứu cho thấy rằng việc trích chọn thuộc tính giúp giảm số lượng thuộc tính cần thiết trong mô hình, đồng thời cải thiện độ chính xác của kết quả dự báo. Các thuộc tính như giới tính, số tín chỉ tích lũy ngành và điểm trung bình chung của mỗi học kỳ là những yếu tố được giữ lại sau quá trình trích chọn, và chúng có vai trò quan trọng trong việc dự đoán kết quả học tập cuối khóa. Giải thuật J48 được chứng minh là thuật toán phù hợp nhất trong việc xây dựng mô hình cây quyết định dự báo kết quả, đạt độ chính xác cao nhất sau khi kết thúc học kỳ 6 và 7, lên đến gần 83%. Bài báo cũng cung cấp ví dụ về các tập luật được rút ra từ cây quyết định, giúp người dùng hiểu rõ hơn về các yếu tố và điều kiện dẫn đến các kết quả dự báo khác nhau. Nghiên cứu này không chỉ đóng góp vào việc phát triển các công cụ dự báo kết quả học tập mà còn cung cấp những thông tin hữu ích cho các nhà quản lý giáo dục trong việc đưa ra quyết định và hỗ trợ sinh viên.