1/ Thông tin bài báo
- Tên bài báo: THUẬT TOÁN HỌC TĂNG CƯỜNG CẢI TIẾN DỰA TRÊN XU HƯỚNG DỮ LIỆU ĐỂ RA QUYẾT ĐỊNH MUA BÁN TRÊN THỊ TRƯỜNG TIỀN ĐIỆN TỬ
- Tác giả: Trần Kim Toại, Võ Minh Huân, Lê Ngọc Thanh và Võ Thị Xuân Hạnh
- Số trang: 224-235
- Năm: 2023
- Nơi xuất bản: Tạp chí Khoa học Trường Đại học Cần Thơ
- Từ khoá: Chiến lược mua bán, học tăng cường, tiền điện tử, xu hướng giá
2/ Nội dung chính
Bài báo nghiên cứu việc sử dụng thuật toán học máy, kết hợp với dữ liệu đường xu hướng giá của thị trường tiền điện tử, để đưa ra quyết định mua bán. Thay vì chỉ dựa vào học tăng cường (Reinforcement Learning – RL), nghiên cứu đề xuất kết hợp RL với xu hướng dữ liệu để cải thiện hiệu quả giao dịch. Mục tiêu chính là trả lời câu hỏi liệu RL có thể giúp “chiến thắng” thị trường tài chính, cụ thể là tạo lợi nhuận và giảm thiểu rủi ro. Các kết quả nghiên cứu cho thấy rằng, việc kết hợp tác nhân (agent) với xu hướng dữ liệu mang lại hiệu quả tốt hơn so với việc chỉ sử dụng RL đơn thuần. Các chỉ số tài chính như mức sụt giảm tối đa (Maximum Drawdown – MDD), lợi nhuận hằng năm và độ chính xác được sử dụng để đánh giá hiệu quả của các mô hình. Dữ liệu được sử dụng bao gồm hai loại tiền điện tử là Bitcoin và Dogecoin. Kết quả cho thấy, thuật toán RL dựa trên đường xu hướng có nhiều ưu điểm hơn so với RL không có đường xu hướng trên nhiều chỉ số hiệu năng khác nhau.
Bài báo trình bày chi tiết về phương pháp nghiên cứu, bắt đầu từ việc giới thiệu về học tăng cường và tầm quan trọng của nó trong lĩnh vực tài chính, đặc biệt là trong bối cảnh công nghệ tài chính (Fintech) phát triển. Các thách thức trong việc dự đoán giá tiền điện tử cũng được đề cập, bao gồm sự biến động và các yếu tố kinh tế, chính trị ảnh hưởng. Bài báo cũng đề cập đến các phương pháp máy học khác nhau được sử dụng trong dự đoán tài chính, từ các phương pháp cổ điển đến các phương pháp học sâu. Hạn chế của các phương pháp dự báo dựa trên dữ liệu quá khứ và các vấn đề overfitting cũng được thảo luận. Để giải quyết các vấn đề này, bài báo giới thiệu kỹ thuật học tăng cường, trong đó tác nhân học cách hành động để tối đa hóa phần thưởng thông qua tương tác với môi trường. Q-learning, một thuật toán học tăng cường không chính sách, được sử dụng để giải quyết bài toán quyết định Markov (Markov Decision Process – MDP). Ngoài ra, bài báo còn đề cập đến vai trò của đường xu hướng trong giao dịch, trong đó các quyết định mua bán được thực hiện theo xu hướng giá, và cách các chỉ báo kỹ thuật có thể được sử dụng để xác định xu hướng.
Nghiên cứu đề xuất một hệ thống học tăng cường cải tiến kết hợp với xu hướng dữ liệu, trong đó mô hình dự đoán xu hướng hỗ trợ mô hình học tăng cường trong việc đưa ra quyết định. Hệ thống bao gồm các thành phần chính như tác nhân, môi trường, trạng thái, hành động và hàm phần thưởng. Các hành động của tác nhân bao gồm mua, bán và giữ, và mục tiêu là tối đa hóa lợi nhuận. Các thước đo đánh giá mô hình, bao gồm mức sụt giảm tối đa, lợi nhuận hằng năm và độ chính xác, được sử dụng để so sánh các kết quả. Bài báo cũng mô tả chi tiết về quá trình huấn luyện mô hình Q-learning, bao gồm việc khởi tạo Q-table, chọn hành động, tính phần thưởng và cập nhật Q-table. Các kết quả thực nghiệm trên hai bộ dữ liệu Dogecoin và Bitcoin cho thấy rằng mô hình học tăng cường kết hợp xu hướng dữ liệu có hiệu quả hơn so với mô hình học tăng cường không kết hợp xu hướng, đặc biệt về độ chính xác và lợi nhuận tích lũy. Kết luận, bài báo khẳng định rằng việc kết hợp học tăng cường với xu hướng dữ liệu giúp đưa ra các quyết định giao dịch hiệu quả hơn trên thị trường tiền điện tử, đồng thời giảm thiểu rủi ro cho nhà đầu tư.