Khuyến mãi đặc biệt
  • Giảm 10% phí tải tài liệu khi like và share website
  • Tặng 1 bộ slide thuyết trình khi tải tài liệu
  • Giảm 5% dịch vụ viết thuê luận văn thạc sĩ của Luận Văn A-Z
  • Giảm 2% dịch vụ viết thuê luận án tiến sĩ của Luận Văn A-Z

BloombergGPT: A Large Language Model For Finance

50.000 VNĐ

BloombergGPT là một mô hình ngôn ngữ lớn (LLM) với 50 tỷ tham số, được đào tạo trên một lượng lớn dữ liệu tài chính, bao gồm 363 tỷ token từ Bloomberg và 345 tỷ token từ các tập dữ liệu đa mục đích. Mô hình này được thiết kế để phục vụ các ứng dụng NLP trong lĩnh vực tài chính, như phân tích tình cảm, nhận dạng thực thể và trả lời câu hỏi. BloombergGPT đã được đánh giá trên các bộ benchmark LLM tiêu chuẩn, các benchmark tài chính mở và các benchmark nội bộ của Bloomberg, cho thấy hiệu suất vượt trội so với các mô hình hiện có trên các tác vụ tài chính mà không làm giảm hiệu suất trên các benchmark LLM tổng quát.

1. Thông tin Nghiên cứu khoa học

  • Tên nghiên cứu tiếng Anh: BloombergGPT: A Large Language Model for Finance
  • Tên nghiên cứu tiếng Việt: BloombergGPT: Một mô hình ngôn ngữ lớn cho lĩnh vực tài chính
  • Tác giả: Shijie Wu, Ozan ̇Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann
  • Số trang file pdf: 76
  • Năm: 2023
  • Nơi xuất bản: Bloomberg
  • Chuyên ngành học: Khoa học máy tính, Xử lý ngôn ngữ tự nhiên (NLP), Học máy (Machine Learning), Tài chính (Finance)
  • Từ khoá: Mô hình ngôn ngữ lớn (LLM), Tài chính, BloombergGPT, Xử lý ngôn ngữ tự nhiên (NLP), Huấn luyện mô hình (Model Training), Ngân hàng câu hỏi tài chính (Financial Question Answering), Nhận dạng thực thể có tên (Named Entity Recognition), Phân tích tình cảm (Sentiment Analysis)

2. Nội dung chính

Bài viết giới thiệu BloombergGPT, một mô hình ngôn ngữ lớn (LLM) với 50 tỷ tham số, được thiết kế đặc biệt cho lĩnh vực tài chính. Nhóm nghiên cứu đã xây dựng một tập dữ liệu khổng lồ gồm 363 tỷ token dựa trên các nguồn dữ liệu phong phú của Bloomberg, kết hợp với 345 tỷ token từ các tập dữ liệu đa mục đích chung. BloombergGPT được đánh giá trên các bộ tiêu chuẩn LLM thông thường, các bộ tiêu chuẩn tài chính công khai và một loạt các bộ tiêu chuẩn nội bộ của Bloomberg để phản ánh chính xác nhất mục đích sử dụng của mô hình. Kết quả cho thấy cách tiếp cận huấn luyện trên tập dữ liệu hỗn hợp giúp BloombergGPT vượt trội hơn so với các mô hình hiện có trên các tác vụ tài chính mà không làm giảm hiệu suất trên các bộ tiêu chuẩn LLM thông thường.

Bài nghiên cứu khẳng định rằng việc sử dụng NLP trong lĩnh vực công nghệ tài chính (FinTech) ngày càng trở nên quan trọng. Trong đó, các tác vụ như phân tích tình cảm (sentiment analysis), nhận dạng thực thể có tên (named entity recognition) và trả lời câu hỏi (question answering) đóng vai trò then chốt. Các LLM đã chứng minh được hiệu quả trên nhiều tác vụ khác nhau, song, theo nghiên cứu này, chưa có LLM nào được chuyên biệt hóa cho lĩnh vực tài chính được báo cáo trong các tài liệu khoa học trước đó.

Nhóm nghiên cứu đã xây dựng “FinPile”, một tập dữ liệu toàn diện bao gồm nhiều loại tài liệu tài chính tiếng Anh, bao gồm tin tức, hồ sơ pháp lý, thông cáo báo chí, tài liệu tài chính thu thập từ web và nội dung truyền thông xã hội từ kho lưu trữ của Bloomberg. Tập dữ liệu này được bổ sung bằng dữ liệu công khai thường được sử dụng để huấn luyện LLM. Kết quả là một kho dữ liệu huấn luyện mà trong đó, một nửa là văn bản đặc thù cho lĩnh vực tài chính và nửa còn lại là văn bản đa mục đích. Để nâng cao chất lượng dữ liệu, nhóm nghiên cứu đã loại bỏ các bản sao trùng lặp trong mỗi tập dữ liệu (“The Pile”, C4, Wikipedia, FinPile).

Dữ liệu tài chính (Financial Datasets) chiếm 51,27% dữ liệu huấn luyện, tương đương 363 tỷ tokens. Trong đó, Bloomberg Terminal cung cấp quyền truy cập vào một tập hợp toàn diện các dữ liệu tài chính có cấu trúc và phi cấu trúc trong bốn thập kỷ qua. Các nhà phân tích của Bloomberg đã tuyển chọn một tập hợp các tài liệu tài chính được tạo ra nội bộ hoặc thu thập từ các nguồn bên ngoài. Nhóm nghiên cứu đã sử dụng bộ sưu tập lớn các tài liệu được tuyển chọn và duy trì này để tạo FinPile, bao gồm hồ sơ công ty, tin tức tài chính và các dữ liệu khác liên quan đến thị trường tài chính. Một số tài liệu trong FinPile, chẳng hạn như hồ sơ công ty, có sẵn cho công chúng, mặc dù việc thu thập các tài liệu này và tiền xử lý chúng để huấn luyện LLM là một nhiệm vụ không hề đơn giản. Các tài liệu khác, chẳng hạn như (một tập hợp con của) tin tức Bloomberg, phải được mua. Phần còn lại của các tài liệu là riêng tư và có sẵn, trong số các nguồn khác, thông qua Bloomberg Terminal. Dữ liệu này sau đó được làm sạch để loại bỏ các đánh dấu, định dạng đặc biệt và mẫu.

Dữ liệu công khai (Public Datasets) chiếm 48,73% dữ liệu huấn luyện, tương đương 345 tỷ tokens. Trong đó, nhóm nghiên cứu sử dụng ba tập dữ liệu công khai được biết đến rộng rãi. “The Pile” được đưa vào dữ liệu huấn luyện vì nó đã được sử dụng để huấn luyện thành công LLM. Thứ hai, nó đã trải qua quá trình làm sạch và tiền xử lý dữ liệu quan trọng. Thứ ba, nó bao gồm nhiều lĩnh vực và nhóm nghiên cứu tin rằng dữ liệu đa dạng như vậy sẽ hỗ trợ khái quát hóa cho các lĩnh vực mới và thậm chí có thể hỗ trợ huấn luyện trên dữ liệu tài chính. Ví dụ, các lĩnh vực như FreeLaw và GitHub rất hữu ích cho các nhóm tại Bloomberg làm việc trên các tài liệu pháp lý và phát triển phần mềm, tương ứng. Bên cạnh đó, Colossal Clean Crawled Corpus (C4) là một tập dữ liệu phổ biến được sử dụng để huấn luyện LLM, mặc dù nó trùng lặp với Pile-CC, nhưng C4 được làm sạch và xử lý khác nhau; do đó, nhóm nghiên cứu cảm thấy rằng việc đưa C4 vào cùng với “The Pile” có thể mang lại giá trị cao hơn so với các tài liệu trùng lặp. Cuối cùng, nhóm nghiên cứu cũng sử dụng bản kết xuất Wikipedia tiếng Anh từ ngày 1 tháng 7 năm 2022.

Về Tokenization, nhóm nghiên cứu chọn Unigram tokenizer thay vì greedy merge-based sub-word tokenizer, chẳng hạn như Byte Pair Encoding (BPE) hoặc Wordpiece. Unigram tokenizer tương ứng với phân phối xác suất trên các mã thông báo (tức là mô hình ngôn ngữ unigram) và nhóm nghiên cứu hợp nhất các tokenizer bằng cách lấy trung bình có trọng số của xác suất của các mã thông báo tương ứng, với các trọng số được xác định bởi kích thước tương đối (tính bằng byte) của dữ liệu được sử dụng để huấn luyện các tokenizer.

BloombergGPT là một mô hình ngôn ngữ nhân quả chỉ giải mã dựa trên BLOOM. Mô hình này chứa 70 lớp khối giải mã transformer. ALiBi positional encoding được áp dụng thông qua các độ lệch cộng tại thành phần tự chú ý của mạng transformer. Các embedding mã thông báo đầu vào được liên kết với ánh xạ tuyến tính trước softmax cuối cùng. Mô hình có thêm một lớp chuẩn hóa sau các embedding mã thông báo.

Kích thước của mô hình dựa trên Chinchilla scaling laws, đặc biệt là Approach 1 và Approach 2. Nhóm nghiên cứu bắt đầu với tổng ngân sách tính toán là 1,3 triệu giờ GPU trên GPU A100 40GB. Các tính toán ngụ ý rằng bộ dữ liệu là ~700B tokens là quá nhỏ cho cấu hình “tối ưu Chinchilla” với ngân sách tính toán. Do bị giới hạn về dữ liệu, nhóm nghiên cứu đã chọn mô hình lớn nhất có thể, đồng thời đảm bảo rằng có thể huấn luyện trên tất cả các mã thông báo và vẫn để ~30% tổng ngân sách tính toán làm vùng đệm cho các lỗi, thử lại và khởi động lại không lường trước được. Điều này dẫn đến một mô hình 50B tham số, đây cũng là kích thước gần như tối ưu của Chinchilla cho ngân sách tính toán.

BloombergGPT là một mô hình PyTorch được huấn luyện với mục tiêu lập mô hình ngôn ngữ nhân quả từ trái sang phải tiêu chuẩn. Tất cả các chuỗi huấn luyện có độ dài chính xác bằng nhau là 2.048 mã thông báo để tối đa hóa việc sử dụng GPU. Các chuỗi mã thông báo sau đó được chia thành các đoạn 2.048 mã thông báo. Lưu ý rằng với cách tiếp cận này, mỗi chuỗi huấn luyện có thể chứa nhiều tài liệu từ các lĩnh vực khác nhau. Lưu ý rằng vì sử dụng mã hóa vị trí ALiBi, BloombergGPT có thể được áp dụng cho các chuỗi dài hơn 2.048 tại thời điểm suy luận. Để tối ưu hóa hiệu quả, các chuỗi huấn luyện được nhóm lại với nhau thành các lô (batches). Nhóm nghiên cứu sử dụng AdamW optimizer. Tốc độ học tối đa được đặt thành 6e-5 và sử dụng bộ lập lịch tốc độ học cosine decay với warm-up tuyến tính.

Quá trình huấn luyện BloombergGPT bao gồm các quyết định dựa trên tiến độ huấn luyện mô hình. Nhóm nghiên cứu đã đo lường tổn thất huấn luyện sau mỗi năm bước trên lô hiện tại. Các giá trị thô rất khác nhau, gây ra sự dao động lớn khi vẽ đồ thị. Nhóm nghiên cứu đã huấn luyện tổng cộng 139.200 bước (~53 ngày) và kết thúc quá trình huấn luyện mô hình sau khi hoàn thành ~80% một kỷ nguyên thông qua dữ liệu huấn luyện (569B mã thông báo trên tổng số 709B mã thông báo có sẵn). Việc huấn luyện đã kết thúc sớm vì tổn thất trên bộ phát triển bị giữ lại không còn cải thiện nữa, mặc dù có thể việc huấn luyện lâu hơn đáng kể có thể đã mang lại những cải tiến hơn nữa.

BloombergGPT được đánh giá trên hai loại tác vụ: tác vụ dành riêng cho tài chính và tác vụ đa mục đích. Các tác vụ dành riêng cho tài chính giúp kiểm tra giả thuyết rằng việc huấn luyện trên dữ liệu dành riêng cho tài chính chất lượng cao sẽ mang lại kết quả tốt hơn trên các tác vụ tài chính. Các tác vụ đa mục đích điều tra xem hiệu suất của mô hình có thể so sánh trực tiếp với các kết quả đã công bố trước đó hay không.

Các tiêu chuẩn tài chính công khai bao gồm bốn tác vụ từ bộ tiêu chuẩn FLUE và tập dữ liệu ConvFinQA. Để so sánh các mô hình một cách công bằng, nhóm nghiên cứu đã tránh điều chỉnh bất kỳ lời nhắc nào và các kỹ thuật khác có thể dẫn đến cải thiện kết quả cho một số, nhưng không phải tất cả các mô hình. Vì lý do đó, mọi tác vụ đều được kiểm tra thông qua lời nhắc “tiêu chuẩn”, tức là không có bất kỳ thay đổi tham số nào đối với mô hình cơ bản, không có mô tả tác vụ và không có lời nhắc Chain-of-Thought. Số lượng ví dụ few-shot được trình bày cho mô hình phụ thuộc vào tác vụ và những chi tiết này được bao gồm trong các phần tương ứng.

BloombergGPT liên tục vượt trội so với các mô hình khác. Mặc dù điều này được mong đợi và chủ yếu đóng vai trò như một bài kiểm tra tỉnh táo, nhưng nó cũng cung cấp cái nhìn sâu sắc có giá trị về khả năng khái quát hóa của các mô hình khác. Ví dụ: khoảng cách tới BloombergGPT là đáng kể nhất trong danh mục Hồ sơ pháp lý, có lẽ vì các tài liệu này, mặc dù là công khai, nhưng thường ở định dạng PDF và do đó không được đưa vào bất kỳ bộ dữ liệu hiện có nào.

Hiệu suất của BloombergGPT được đánh giá trên các bộ dữ liệu phân tích tình cảm cụ thể về khía cạnh nội bộ của Bloomberg. Các bộ dữ liệu được sử dụng là: Equity News Sentiment, Equity Social Media Sentiment, Equity Transcript Sentiment, ES News Sentiment, Country News Sentiment.

BloombergGPT vượt trội hơn hẳn so với tất cả các mô hình khác đã thử nghiệm, với biên độ rộng. Tác vụ duy nhất mà các mô hình hoạt động tương tự là tác vụ tình cảm trên phương tiện truyền thông xã hội, trong khi BloombergGPT vượt trội hơn các mô hình khác ít nhất 25 điểm và lên đến hơn 60 điểm trong ba tác vụ còn lại.

Nhóm nghiên cứu cũng sử dụng nhận dạng thực thể có tên (NER) như một tác vụ thăm dò. NER thường được xem xét trong tài chính, mặc dù đây là một tác vụ chưa được khám phá đối với LLM tạo sinh. Lý do NER có thể là một tác vụ khó khăn đối với LLM tạo sinh là vì nó là một tác vụ trích xuất thông tin và phù hợp hơn với kiến trúc bộ mã hóa-bộ giải mã hoặc chỉ bộ mã hóa. Bảy bộ dữ liệu NER nội bộ của Bloomberg từ các lĩnh vực khác nhau đã được sử dụng, đó là BN NER, BFW NER, Filings NER, Headlines NER, Premium NER, Transcripts NER và Social Media NER. Kết quả từ các tác vụ NER nội bộ rất khác nhau.

BloombergGPT cũng được đánh giá trên BIG-bench Hard, một tập hợp con của các nhiệm vụ khó khăn nhất trong BIG-bench. Nhìn chung, mặc dù BloombergGPT tụt hậu so với PaLM 540B (tham số gấp 10 lần) và BLOOM 176B (tham số gấp 3,5 lần), nhưng đây là mô hình hoạt động tốt nhất trong số các mô hình có kích thước tương tự. Thật vậy, hiệu suất của nó gần với BLOOM 176B hơn so với GPT-NeoX hoặc OPT 66B. Nó còn đạt được hiệu suất tốt nhất trong số tất cả các mô hình trong khả năng hiểu ngày tháng, siêu văn bản (sắp xếp thứ tự tính từ) và theo dõi các đối tượng bị xáo trộn. Tóm lại, theo tiêu chuẩn này, nhóm nghiên cứu nhận thấy rằng việc phát triển BloombergGPT dành riêng cho tài chính không ảnh hưởng đến khả năng đa năng của nó.

Nhóm nghiên cứu cũng đánh giá kiến thức, được định nghĩa là khả năng nhớ lại thông tin thu được trong quá trình huấn luyện mô hình, thông qua các tình huống mà mô hình trả lời các câu hỏi mà không cung cấp thêm ngữ cảnh hoặc tài nguyên (trả lời câu hỏi kín). Chúng bao gồm các câu hỏi trắc nghiệm và nhóm nghiên cứu báo cáo độ chính xác. Các nhiệm vụ bao gồm ARC (dễ và khó), CommonsenseQA, MMLU và PhysicalQA (PiQA). BloombergGPT đạt hiệu suất cao nhất trong số BLOOM 176B, GPT-NeoX và OPT 66B trong một nhiệm vụ và đứng thứ hai trong ba nhiệm vụ còn lại. Tương tự như phần trước, nó vượt trội so với các mô hình có kích thước tương tự trong khi gần như ngang bằng với các mô hình lớn hơn nhiều. Các kết quả tổng hợp cho thấy BloombergGPT liên tục vượt trội so với OPT 66B, đến lượt OPT 66B vượt trội so với GPT-NeoX, trong khi GPT-3 hoạt động tốt nhất.

Ngoài ra, nhóm nghiên cứu còn thực hiện một số đánh giá về khả năng đọc hiểu, được định nghĩa là các nhiệm vụ mà mô hình có thể tạo ra phản hồi chính xác dựa trên thông tin có trong văn bản đầu vào được trình bày. Danh mục này bao gồm các tác vụ QA sách mở. Các tác vụ bao gồm BoolQ, OpenBookQA, RACE (trung bình), RACE (cao), MultiRC, ReCoRD. Kết quả cho thấy thứ hạng tương tự như trong các đánh giá ở trên: Mặc dù GPT-3 có hiệu suất cao nhất, BloombergGPT đứng thứ hai. Ngoại trừ OpenBookQA, hiệu suất của BloombergGPT là cao nhất trong số BLOOM 176B, GPT-NeoX và OPT 66B. Đáng ngạc nhiên là BLOOM 176B tụt lại đáng kể trong danh mục này.

Cuối cùng, BloombergGPT được đánh giá trên các tác vụ ngôn ngữ, là những kịch bản không liên quan trực tiếp đến các ứng dụng hướng đến người dùng. Chúng bao gồm các tác vụ đánh giá sự loại bỏ mơ hồ, ngữ pháp hoặc kéo theo. Những nhiệm vụ này được thiết kế để đánh giá trực tiếp khả năng hiểu ngôn ngữ của mô hình. Các tác vụ bao gồm RTE, ANLI (Vòng 1, 2 và 3), CB, COPA, WIC, WinoGrad, WinoGrande, HellaSWAG và StoryCloze. Các kết quả cho các nhiệm vụ ngôn ngữ tuân theo một xu hướng tương tự như danh mục kiến thức. BloombergGPT tụt lại một chút so với GPT-3 và vượt trội hơn các mô hình khác. Tương tự như danh mục đọc hiểu, BLOOM 176B tụt lại phía sau BloombergGPT.

Nhìn chung, nghiên cứu này cho thấy rằng trong số các mô hình có hàng chục tỷ tham số mà nhóm nghiên cứu so sánh, BloombergGPT hoạt động tốt nhất. Hơn nữa, trong một số trường hợp, nó có tính cạnh tranh hoặc vượt quá hiệu suất của các mô hình lớn hơn nhiều (hàng trăm tỷ tham số). Trong khi mục tiêu của nhóm nghiên cứu đối với BloombergGPT là trở thành một mô hình tốt nhất trong lớp cho các tác vụ tài chính, thì mô hình này vẫn đạt được khả năng trên dữ liệu đa mục đích vượt quá các mô hình có kích thước tương tự và trong một số trường hợp phù hợp hoặc vượt trội hơn so với các mô hình lớn hơn nhiều.

Giảm giá!
Giá gốc là: 50.000 VNĐ.Giá hiện tại là: 0 VNĐ.
Giảm giá!
Giá gốc là: 50.000 VNĐ.Giá hiện tại là: 0 VNĐ.
Giảm giá!
Giá gốc là: 50.000 VNĐ.Giá hiện tại là: 0 VNĐ.
Giảm giá!
Giá gốc là: 50.000 VNĐ.Giá hiện tại là: 0 VNĐ.
Giảm giá!
Giá gốc là: 50.000 VNĐ.Giá hiện tại là: 0 VNĐ.
Giảm giá!
Giá gốc là: 50.000 VNĐ.Giá hiện tại là: 0 VNĐ.
BloombergGPT: A Large Language Model For Finance
BloombergGPT: A Large Language Model For Finance