1. Thông tin Nghiên cứu khoa học
- Tên nghiên cứu tiếng Anh: A Survey of Large Language Models in Finance (FinLLMs)
- Tên nghiên cứu tiếng Việt: Tổng quan về các Mô hình Ngôn ngữ Lớn trong Tài chính (FinLLMs)
- Tác giả: Jean Lee, Nicholas Stevens, Soyeon Caren Han, Minseok Song
- Số trang file pdf: 1
- Năm: 2024
- Nơi xuất bản: arXiv
- Chuyên ngành học: Khoa học máy tính (Computer Science), Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
- Từ khoá: Large Language Models (LLMs), Financial Language Models (FinLLMs), Pre-trained Language Models (PLMs), Financial Natural Language Processing (NLP), Survey
2. Nội dung chính
Bài viết này trình bày một tổng quan toàn diện về các Mô hình Ngôn ngữ Lớn trong lĩnh vực Tài chính (FinLLMs), bao gồm lịch sử phát triển, các kỹ thuật được sử dụng, đánh giá hiệu suất, cơ hội và thách thức. Bài viết bắt đầu bằng việc giới thiệu sự phát triển nhanh chóng của các Mô hình Ngôn ngữ Lớn (LLMs) trong cả học thuật và công nghiệp, đặc biệt là các ứng dụng như ChatGPT. LLMs được xây dựng dựa trên kiến trúc Transformer và được tăng cường sức mạnh nhờ học chuyển giao, sử dụng một lượng lớn dữ liệu văn bản. Việc mở rộng quy mô mô hình không chỉ tăng cường khả năng mà còn cho phép các thuộc tính mới nổi, chẳng hạn như khả năng học trong ngữ cảnh (in-context learning).
Trong lĩnh vực tài chính, việc ứng dụng Xử lý Ngôn ngữ Tự nhiên (NLP) ngày càng tăng trong nhiều tác vụ khác nhau, bao gồm phân tích tình cảm, trả lời câu hỏi và dự đoán thị trường chứng khoán. Sự tiến bộ nhanh chóng của các LLMs đã thúc đẩy việc nghiên cứu các FinLLMs, sử dụng các phương pháp như LLMs đa lĩnh vực với kỹ thuật prompt và LLMs tinh chỉnh hướng dẫn với kỹ thuật prompt. Vai trò của dịch vụ ngân hàng trong lĩnh vực tài chính ngày càng được khẳng định khi NLP được ứng dụng rộng rãi.
Bài viết trình bày một cái nhìn tổng quan về sự phát triển từ các Mô hình Ngôn ngữ (LMs) thông thường đến các LMs chuyên biệt cho lĩnh vực tài chính. Sự phát triển này bắt đầu với kiến trúc Transformer được Google giới thiệu năm 2017. Các LMs thường được huấn luyện trước với các mục tiêu phân biệt hoặc sinh. Huấn luyện trước phân biệt sử dụng mô hình ngôn ngữ che mặt để dự đoán câu tiếp theo và có kiến trúc chỉ mã hóa hoặc kiến trúc mã hóa-giải mã. Huấn luyện trước sinh sử dụng mô hình ngôn ngữ tự hồi quy để dự đoán mã thông báo tiếp theo và có kiến trúc chỉ giải mã.
Loạt mô hình Generative Pre-trained Transformer (GPT) bắt đầu với GPT-1 (110M) [Radford et al., 2018]. Kể từ đó, nhóm OpenAI tập trung vào việc mở rộng mô hình và GPT-2 (1,5B) [Radford et al., 2019] được phát hành vào năm 2019. GPT-2 xác định sức mạnh của việc mở rộng quy mô và một cách tiếp cận xác suất để giải quyết vấn đề đa nhiệm. Năm 2020, GPT-3 với 175B tham số đã được phát hành [Brown et al., 2020]. Đây là một cột mốc quan trọng đối với LLMs, vì nó giới thiệu một khả năng mới nổi của LLMs; học trong ngữ cảnh. Học trong ngữ cảnh đề cập đến việc mô hình có được các khả năng không được đào tạo rõ ràng, cho phép các mô hình ngôn ngữ hiểu ngôn ngữ của con người và tạo ra các kết quả vượt ra ngoài các mục tiêu huấn luyện trước ban đầu của chúng. Những nỗ lực liên tục để cải thiện LLMs đã dẫn đến sự ra đời của ChatGPT, vào tháng 11 năm 2022. Ứng dụng này kết hợp GPT-3 (Học trong ngữ cảnh), Codex (LLMs cho mã) và InstructGPT (Học tăng cường với phản hồi của con người, RLHF). Sự thành công của ChatGPT đã dẫn đến sự phát triển hơn nữa của các mô hình lớn hơn đáng kể, bao gồm GPT-4 (ước tính 1,7T tham số). GPT-4 thể hiện hiệu suất ở cấp độ con người, có khả năng vượt qua các kỳ thi luật và y tế, đồng thời xử lý dữ liệu đa phương thức. OpenAI tiếp tục xây dựng các mô hình ngôn ngữ cực lớn, nhằm mục đích nâng cao khả năng của mô hình trong việc xử lý dữ liệu đa phương thức, cũng như cung cấp API để phát triển các ứng dụng thực tế. Mặc dù phổ biến và được chấp nhận rộng rãi, các ứng dụng thực tế trong lĩnh vực tài chính sử dụng API của họ vẫn chưa được khám phá đầy đủ.
Trước kỷ nguyên của LLMs, cộng đồng nghiên cứu thường phát hành PLMs nguồn mở như Bi-directional Encoder Representations from Transformers (BERT, base-110M parameters) [Devlin et al., 2018]. BERT là mô hình nền tảng cho nhiều PLMs ban đầu, bao gồm FinBERT. Kể từ khi OpenAI chuyển từ LLMs nguồn mở sang nguồn đóng, xu hướng trong nghiên cứu LLM là giảm phát hành các mô hình nguồn mở. Tuy nhiên, vào tháng 2 năm 2023, Meta AI đã phát hành LLM nguồn mở, LLaMA (7B, 13B, 33B, 65B tham số) [Touvron et al., 2023], và điều này đã khuyến khích sự phát triển của các LLMs đa dạng bằng cách sử dụng LLaMA. Tương tự như các biến thể BERT, các biến thể LLaMA nhanh chóng phát triển bằng cách áp dụng các kỹ thuật khác nhau như Instruction Fine-Tuning (IFT) [Zhang et al., 2023] và Chain-of-Thought (CoT) Prompting [Wei et al., 2022].
Cũng đã có những nỗ lực đáng kể của cộng đồng nghiên cứu để tạo ra LLMs nguồn mở để giảm sự phụ thuộc vào nghiên cứu của công ty và các mô hình độc quyền. BLOOM (176B) [Scao et al., 2022] được xây dựng bởi sự hợp tác của hàng trăm nhà nghiên cứu từ BigScience Workshop. LLM nguồn mở này được đào tạo trên 46 ngôn ngữ tự nhiên và 13 ngôn ngữ lập trình.
Các LMs đặc biệt cho lĩnh vực tài chính thường được xây dựng bằng cách sử dụng các LLMs thông thường. Cơ cấu nguồn vốn của doanh nghiệp cần được xem xét kỹ lưỡng khi xây dựng các LLMs này. Hiện nay, có bốn PLMs tài chính (FinPLMs) và bốn LLMs tài chính (FinLLMs). Trong số bốn FinPLMs, FinBERT-19 [Araci, 2019], FinBERT-20 [Yang et al., 2020] và FinBERT-21 [Liu et al., 2021] đều dựa trên BERT, trong khi FLANG [Shah et al., 2022] dựa trên ELECTRA [Clark et al., 2020]. Trong số bốn FinLLMs, FinMA [Xie et al., 2023], InvestLM [Yang et al., 2023c] và FinGPT [Wang et al., 2023] dựa trên LLaMA hoặc các mô hình dựa trên nguồn mở khác, trong khi BloombergGPT [Wu et al., 2023] là một mô hình nguồn đóng theo kiểu BLOOM.
Bài viết so sánh các kỹ thuật được sử dụng trong các FinPLMs và FinLLMs, bao gồm phương pháp đào tạo, dữ liệu đào tạo và phương pháp tinh chỉnh.
Tiếp tục đào tạo trước các LMs nhằm mục đích đào tạo một LM chung hiện có với dữ liệu dành riêng cho miền mới trên một chuỗi các tác vụ tăng dần [Ke et al., 2022]. FinBERT-19 [Araci, 2019] là mô hình FinBERT đầu tiên được phát hành để phân tích tình cảm tài chính và thực hiện ba bước: 1) khởi tạo BERT PLM miền chung (3,3B mã thông báo), 2) tiếp tục đào tạo trước trên một kho dữ liệu miền tài chính và 3) tinh chỉnh trên các tác vụ NLP cụ thể cho miền tài chính. LM tài chính được tinh chỉnh được phát hành trên HuggingFace và FinBERT-19 này là một mô hình phụ thuộc vào tác vụ cho tác vụ phân tích tình cảm tài chính.
Cách tiếp cận đào tạo trước dành riêng cho miền từ đầu bao gồm đào tạo một mô hình dành riêng trên một kho dữ liệu dành riêng cho miền chưa được gắn nhãn, đồng thời tuân theo kiến trúc ban đầu và mục tiêu đào tạo của nó. FinBERT-20 [Yang et al., 2020] là một mô hình BERT dành riêng cho lĩnh vực tài chính, được đào tạo trước trên một kho dữ liệu giao tiếp tài chính (4,9B mã thông báo). Tác giả không chỉ phát hành mô hình FinBERT mà còn cả FinVocab không phân biệt chữ hoa chữ thường/phân biệt chữ hoa chữ thường, có kích thước mã thông báo tương tự như mô hình BERT ban đầu. FinBERT-20 cũng đã thực hiện một tác vụ phân tích tình cảm cho các thử nghiệm tinh chỉnh trên cùng một tập dữ liệu của FinBERT-19.
Cách tiếp cận đào tạo trước miền hỗn hợp bao gồm đào tạo một mô hình bằng cả kho dữ liệu miền chung và kho dữ liệu dành riêng cho miền. Giả định là văn bản miền chung vẫn có liên quan, trong khi dữ liệu miền tài chính cung cấp kiến thức và khả năng thích ứng trong quá trình đào tạo trước. FinBERT-21 [Liu et al., 2021] là một PLM dựa trên BERT khác được thiết kế để khai thác văn bản tài chính, được đào tạo đồng thời trên một kho dữ liệu chung và một kho dữ liệu miền tài chính. FinBERT-21 sử dụng học đa tác vụ trên sáu tác vụ đào tạo trước được giám sát, cho phép nó nắm bắt hiệu quả kiến thức ngôn ngữ và thông tin ngữ nghĩa. FinBERT-21 đã thực hiện các thử nghiệm về Phân tích tình cảm cũng như cung cấp kết quả thử nghiệm cho hai tác vụ bổ sung; Phát hiện ranh giới câu và Trả lời câu hỏi.
LLMs miền hỗn hợp được đào tạo trên cả kho dữ liệu chung lớn và kho dữ liệu dành riêng cho miền lớn. Sau đó, người dùng mô tả tác vụ và tùy chọn cung cấp một bộ ví dụ bằng ngôn ngữ của con người. Kỹ thuật này được gọi là Kỹ thuật Prompt và sử dụng cùng một LLM bị đóng băng cho một số tác vụ hạ nguồn mà không cần cập nhật trọng số. BloombergGPT [Wu et al., 2023] là FinLLM đầu tiên sử dụng mô hình BLOOM [Scao et al., 2022]. Nó được đào tạo trên một kho dữ liệu chung lớn (345B mã thông báo) và một kho dữ liệu tài chính lớn (363B mã thông báo). Kho dữ liệu tài chính, FinPile, chứa dữ liệu được thu thập từ web, tin tức, hồ sơ, báo chí và dữ liệu độc quyền của Bloomberg. Các tác giả đã thực hiện các tác vụ NLP tài chính (5 tác vụ điểm chuẩn và 12 tác vụ nội bộ) cũng như 42 tác vụ NLP mục đích chung.
Tinh chỉnh hướng dẫn là đào tạo bổ sung LLMs bằng cách sử dụng các hướng dẫn bằng văn bản rõ ràng để nâng cao khả năng và khả năng kiểm soát của LLMs. Nghiên cứu về tinh chỉnh hướng dẫn có thể được phân loại thành hai lĩnh vực chính [Zhang et al., 2023]: 1) xây dựng tập dữ liệu hướng dẫn và 2) tạo LLMs được tinh chỉnh bằng cách sử dụng các tập dữ liệu hướng dẫn này. Trong tài chính, các nhà nghiên cứu đã bắt đầu chuyển đổi các tập dữ liệu tài chính hiện có thành tập dữ liệu hướng dẫn và sau đó sử dụng các tập dữ liệu này để tinh chỉnh LLMs. FinMA (hoặc PIXIU) [Xie et al., 2023] bao gồm hai mô hình LLaMA được tinh chỉnh (7B và 30B) [Touvron et al., 2023] sử dụng tập dữ liệu hướng dẫn tài chính cho các tác vụ tài chính. Nó được xây dựng từ một tập dữ liệu hướng dẫn đa tác vụ quy mô lớn có tên là Financial Instruction Tuning (FIT, 136k mẫu) bằng cách thu thập chín tập dữ liệu tài chính được phát hành công khai được sử dụng trên năm tác vụ khác nhau. Ngoài năm tác vụ điểm chuẩn FLUE, nó còn bao gồm tác vụ Dự đoán biến động chứng khoán. InvestLM [Yang et al., 2023c] là mô hình LLaMA-65B được tinh chỉnh bằng cách sử dụng tập dữ liệu hướng dẫn miền tài chính được quản lý thủ công. Tập dữ liệu bao gồm các câu hỏi trong kỳ thi Chartered Financial Analyst (CFA), hồ sơ SEC, các cuộc thảo luận về tài chính định lượng trên Stackexchange và các tác vụ NLP tài chính. Các tác vụ hạ nguồn tương tự như FinMA nhưng cũng bao gồm tác vụ Tóm tắt văn bản tài chính. FinGPT [Yang et al., 2023a] là một khuôn khổ nguồn mở và hướng đến dữ liệu, cung cấp một bộ API cho các nguồn dữ liệu tài chính, một tập dữ liệu hướng dẫn cho các tác vụ tài chính và một số FinLLMs tài chính được tinh chỉnh. Nhóm FinGPT đã phát hành một số bài báo tương tự mô tả khuôn khổ và một bài báo thử nghiệm [Wang et al., 2023] về FinLLMs được tinh chỉnh hướng dẫn bằng cách sử dụng sáu LLMs nguồn mở với phương pháp Low-Rank Adaptation (LoRA) [Hu et al., 2021].
Bài viết tổng hợp sáu tác vụ và tập dữ liệu đánh giá điểm chuẩn NLP tài chính, đồng thời đánh giá kết quả của các mô hình bao gồm FinPLMs, FinLLMs, ChatGPT, GPT-4 và các mô hình State-of-the-Art (SOTA) cụ thể cho từng tác vụ.
3. Kết luận
Bài viết cung cấp một cái nhìn tổng quan toàn diện về lĩnh vực FinLLMs, bao gồm lịch sử phát triển, các kỹ thuật khác nhau được sử dụng và đánh giá hiệu suất trên các bộ dữ liệu chuẩn. Bên cạnh đó, bài viết còn chỉ ra các cơ hội và thách thức trong tương lai của FinLLMs, bao gồm các khía cạnh liên quan đến tập dữ liệu, kỹ thuật, đánh giá, triển khai và ứng dụng thực tế. Bài viết này sẽ hữu ích cho cả cộng đồng nghiên cứu Khoa học Máy tính và Tài chính, cung cấp một cái nhìn toàn cảnh về FinLLMs, một bộ sưu tập lớn các tập dữ liệu có liên quan để đánh giá nâng cao hơn nữa và các cơ hội và thách thức cho các hướng đi mới cho FinLLMs nâng cao. Nghiên cứu sâu hơn về các mô hình này có thể giúp phát triển các ứng dụng tài chính thông minh và hiệu quả hơn, từ đó nâng cao hiệu quả hoạt động của ngân hàng thương mại và các tổ chức tài chính nói chung.