1. Thông tin Nghiên cứu khoa học
- Tên nghiên cứu tiếng Anh: Big Data in Finance
- Tên nghiên cứu tiếng Việt: Dữ liệu lớn trong lĩnh vực tài chính
- Tác giả: Itay Goldstein, Chester S. Spatt, và Mao Ye
- Số trang: 21
- Năm: 2021
- Nơi xuất bản: NBER (National Bureau of Economic Research) Working Paper No. 28615
- Chuyên ngành học: Tài chính
- Từ khoá: Dữ liệu lớn, Tài chính, Học máy, Kinh tế lượng, Thị trường tài chính, Quản trị doanh nghiệp, Định giá tài sản.
2. Nội dung chính
Bài viết “Big Data in Finance” của Itay Goldstein, Chester S. Spatt, và Mao Ye thảo luận về sự trỗi dậy của dữ liệu lớn (Big Data) và tác động của nó đối với ngành tài chính. Các tác giả định nghĩa “Big Data” trong bối cảnh tài chính là sự kết hợp của ba đặc điểm chính: kích thước lớn, chiều cao và cấu trúc phức tạp. Bài viết này trình bày tổng quan về sáu bài báo được chọn lọc cho một số đặc biệt của tạp chí Review of Financial Studies (RFS), tất cả đều tập trung vào việc sử dụng dữ liệu lớn để giải quyết các câu hỏi quan trọng trong các lĩnh vực khác nhau của tài chính, bao gồm tài chính doanh nghiệp, cấu trúc thị trường và định giá tài sản. Các tác giả cũng đưa ra một số gợi ý cho các hướng nghiên cứu trong tương lai.
Theo Goldstein, Spatt và Ye (2021), kỷ nguyên số đã tạo ra một lượng dữ liệu khổng lồ, tăng trưởng theo cấp số nhân. Sự thay đổi này đang định hình lại ngành tài chính, thể hiện qua việc các công ty tài chính ngày càng ưu tiên tuyển dụng các chuyên gia có nền tảng về khoa học máy tính và kỹ thuật hơn là các chuyên gia quản trị kinh doanh truyền thống. Điều này cũng tác động đến chương trình đào tạo, với sự gia tăng của các chương trình Thạc sĩ Phân tích Kinh doanh (MBA). Trong bối cảnh ngành tài chính đang ngày càng được định hình bởi dữ liệu, việc hiểu về lý thuyết bất cân xứng thông tin trở nên quan trọng hơn bao giờ hết, khi lượng thông tin khổng lồ có thể làm gia tăng sự khác biệt về thông tin giữa các bên tham gia thị trường.
Tuy nhiên, các tác giả đặt ra câu hỏi liệu định nghĩa truyền thống về Big Data, tập trung vào ba yếu tố “volume, velocity, và variety” (khối lượng, tốc độ và sự đa dạng), có thực sự phản ánh đầy đủ các cơ hội và thách thức mà Big Data mang lại cho nghiên cứu và thực tiễn tài chính hay không. Họ đề xuất một định nghĩa khác, tập trung vào ba đặc điểm chính: “large size, high dimension, and complex structure” (kích thước lớn, chiều cao và cấu trúc phức tạp).
Kích thước lớn đề cập đến việc dữ liệu có kích thước lớn một cách tuyệt đối hoặc tương đối. Ví dụ, dữ liệu giao dịch ở cấp độ vi mô trên thị trường là một ví dụ về kích thước tuyệt đối lớn. Kích thước lớn một cách tương đối nghĩa là dữ liệu lớn hơn so với các tập dữ liệu “nhỏ” hiện có. Việc sử dụng tập dữ liệu lớn hơn có thể khắc phục được các vấn đề về thiên vị chọn mẫu hoặc nắm bắt được các hoạt động kinh tế quan trọng không được thể hiện trong tập dữ liệu nhỏ.
Chiều cao đề cập đến việc dữ liệu có nhiều biến so với kích thước mẫu. Học máy (Machine learning), một công cụ quan trọng trong nghiên cứu Big Data, thường được sử dụng để giải quyết thách thức về chiều cao. Các kỹ thuật học máy trở nên có ý nghĩa kinh tế khi chúng đáp ứng các tiêu chí như: vấn đề kinh tế thực tế liên quan đến nhiều biến; tác động của các biến là phi tuyến tính hoặc liên quan đến các điều khoản tương tác; và dự đoán quan trọng hơn suy luận thống kê. Trong phân tích dữ liệu và thống kê, việc hiểu rõ về phân loại dữ liệu định tính và định lượng là nền tảng để lựa chọn phương pháp học máy phù hợp.
Cấu trúc phức tạp đề cập đến việc dữ liệu không ở định dạng hàng-cột truyền thống. Dữ liệu phi cấu trúc bao gồm văn bản, hình ảnh, video và âm thanh. Dữ liệu phi cấu trúc tạo ra giá trị nếu chúng có thể đo lường các hoạt động kinh tế mà dữ liệu cấu trúc không thể nắm bắt được. Phân tích dữ liệu phi cấu trúc thường bắt đầu bằng việc trích xuất các đặc trưng, sử dụng các công cụ như xử lý ngôn ngữ tự nhiên (NLP), nhận dạng giọng nói và thị giác máy tính (CV).
Các tác giả sau đó thảo luận về sáu bài báo trong số đặc biệt của RFS. Bài viết của Erel et al. (2021) cho thấy rằng máy học có thể hoạt động tốt hơn so với con người trong việc lựa chọn các thành viên hội đồng quản trị mới. Bằng cách sử dụng các thuật toán, các tác giả cho thấy rằng các giám đốc được dự đoán là hoạt động kém hiệu quả thực sự hoạt động kém hiệu quả so với các ứng viên tiềm năng khác. Các giám đốc do ban quản lý lựa chọn thường là nam giới, có mạng lưới lớn hơn và tham gia nhiều hội đồng quản trị hơn. Một khả năng là các công ty đề cử các giám đốc không được ưa chuộng có xu hướng ưu tiên sự tương đồng, trong khi thuật toán chọn một hội đồng quản trị đa dạng hơn. Nghiên cứu này làm nổi bật một khía cạnh quan trọng của quản trị công ty, đó là việc lựa chọn nhân sự cấp cao, và cho thấy dữ liệu lớn có thể mang lại cái nhìn mới và hiệu quả hơn so với phương pháp truyền thống.
Bài viết của Li et al. (2021) sử dụng các mô hình NLP để trích xuất các đặc trưng chính của văn hóa doanh nghiệp từ các bản ghi cuộc gọi thu nhập. Họ phân tích văn hóa doanh nghiệp thành năm chiều: đổi mới, tính chính trực, chất lượng, sự tôn trọng và tinh thần đồng đội. Họ phát hiện ra rằng mối liên hệ giữa văn hóa và hiệu suất quan trọng hơn trong thời kỳ khó khăn và văn hóa doanh nghiệp được định hình bởi các sự kiện lớn của công ty, chẳng hạn như sáp nhập và mua lại. Các công ty có điểm cao về giá trị văn hóa đổi mới và tôn trọng có nhiều khả năng mua lại và các công ty có giá trị văn hóa gần gũi hơn có nhiều khả năng sáp nhập.
Bài viết của Easley et al. (2021) khám phá ứng dụng của học máy để phân tích xem giao dịch dựa trên máy có ảnh hưởng đến hiệu quả của các biện pháp vi cấu trúc thị trường được phát triển trước khi máy móc thống trị khối lượng giao dịch hay không. Cụ thể, Easley et al. (2021) kiểm tra xem sáu thước đo vi cấu trúc thị trường hiện có—thước đo Roll, tác động Roll, độ biến động (VIX), Kyle’s 𝜆𝜆, thước đo Amihud và xác suất giao dịch nội gián đồng bộ theo khối lượng (VPIN)—có thể dự đoán các giá trị tương lai của giá cả và tính thanh khoản hay không.
Các tác giả nhận thấy rằng câu trả lời vẫn là tích cực sau sự trỗi dậy của giao dịch tần số cao và giao dịch dựa trên máy. Tuy nhiên, dạng chức năng để đưa ra các dự đoán như vậy phụ thuộc vào ứng dụng. Ví dụ, để đưa ra dự đoán trong cùng một tài sản, một hồi quy logistic đơn giản hoạt động gần như tốt như các kỹ thuật học máy phức tạp. Một lời giải thích là đã có một sự hiểu biết sâu sắc về cấu trúc thị trường cho một tài sản duy nhất. Tuy nhiên, để đưa ra dự đoán trên các tài sản, học máy hoàn toàn vượt trội so với hồi quy logistic đơn giản.
Bài viết của Anand et al. (2021) sử dụng một tập dữ liệu đặc biệt lớn để xác định các xung đột đại diện giữa các nhà giao dịch tổ chức và các nhà môi giới của họ. Các tác giả phát hiện ra rằng các nhà môi giới định tuyến nhiều đơn đặt hàng hơn đến các Hệ thống giao dịch thay thế (ATS) liên kết cung cấp chất lượng thực hiện thấp hơn cho khách hàng của họ. Do đó, các nhà môi giới này có được lợi ích riêng bằng cách tăng thị phần và doanh thu phí của ATS của riêng họ, nhưng không nhất thiết phải đáp ứng trách nhiệm ủy thác của họ để đạt được kết quả tốt nhất cho khách hàng của họ. Nghiên cứu này có liên quan đến lý thuyết đại diện trong tài chính, khi mà lợi ích của người đại diện (nhà môi giới) có thể không hoàn toàn phù hợp với lợi ích của người ủy thác (nhà giao dịch tổ chức).
Bài viết của Benamar, Foucault, và Vega (2021) phân tích vai trò của sự không chắc chắn trong giao dịch trên thị trường tài chính bằng cách sử dụng số liệu thống kê về luồng nhấp trang web từ Bitly, một nhà cung cấp dịch vụ rút ngắn URL, để đo lường nhu cầu thông tin. Họ cho thấy rằng nhu cầu thông tin là một proxy tốt cho sự không chắc chắn và sự gia tăng nhu cầu thông tin về lãi suất trong tương lai trước các thông báo về chính sách tiền tệ và kinh tế vĩ mô (MMPA) ngụ ý rằng lợi suất Kho bạc Hoa Kỳ thể hiện cả sự không chắc chắn cao hơn và độ nhạy mạnh hơn đối với MMPA.
Bài viết của Giglio, Liao, và Xiu (2021) đề xuất một khuôn khổ mới để thực hiện kiểm tra giả thuyết nhiều lần một cách nghiêm ngặt trong các mô hình định giá tài sản tuyến tính, tập trung vào việc giải quyết vấn đề rình mò dữ liệu. Các tác giả sử dụng kết hợp hoàn thành ma trận, khởi động lại hoang dã, sàng lọc và kiểm soát khám phá sai để giải quyết các vấn đề về rình mò dữ liệu và dương tính giả. Họ minh họa khuôn khổ của mình bằng cách sử dụng tập dữ liệu quỹ phòng hộ, nhưng hộp công cụ của họ cũng có thể được áp dụng trong nghiên cứu định giá tài sản khác.
Tóm lại, các bài viết trong số đặc biệt của RFS cung cấp một cái nhìn tổng quan về các cách khác nhau mà Big Data đang được sử dụng để giải quyết các câu hỏi quan trọng trong tài chính. Các bài viết bao gồm các chủ đề khác nhau như định giá tài sản, tài chính doanh nghiệp và vi cấu trúc thị trường, thể hiện phạm vi rộng lớn của các kỹ thuật Big Data trong nghiên cứu tài chính.
3. Kết luận
Bài viết “Big Data in Finance” nhấn mạnh tiềm năng to lớn của dữ liệu lớn và học máy trong việc cách mạng hóa nghiên cứu và thực tiễn tài chính. Các tác giả đã trình bày một định nghĩa toàn diện về Big Data trong bối cảnh tài chính, bao gồm các đặc điểm về kích thước lớn, chiều cao và cấu trúc phức tạp. Sáu bài báo được giới thiệu trong số đặc biệt của RFS thể hiện cách các kỹ thuật Big Data có thể được áp dụng để giải quyết các câu hỏi quan trọng trong các lĩnh vực khác nhau của tài chính, từ lựa chọn thành viên hội đồng quản trị đến đo lường văn hóa doanh nghiệp và phân tích vi cấu trúc thị trường.
Tuy nhiên, các tác giả cũng lưu ý rằng việc sử dụng Big Data trong tài chính vẫn còn ở giai đoạn sơ khai và nhiều câu hỏi mới vẫn chưa được trả lời. Họ đề xuất một số hướng nghiên cứu đầy hứa hẹn, bao gồm: nghiên cứu về học máy và máy học, tác động phản hồi của cuộc cách mạng Big Data, tác động không đồng nhất của cuộc cách mạng Big Data, dữ liệu phức tạp hơn, quy định và lý thuyết. Nhìn chung, bài viết này cung cấp một cái nhìn sâu sắc về tiềm năng của Big Data để định hình tương lai của nghiên cứu tài chính và nhấn mạnh tầm quan trọng của các nghiên cứu liên ngành để vượt qua các thách thức và khai thác tối đa lợi ích của dữ liệu lớn trong lĩnh vực này.