Khuyến mãi đặc biệt
  • Giảm 10% phí tải tài liệu khi like và share website
  • Tặng 1 bộ slide thuyết trình khi tải tài liệu
  • Giảm 5% dịch vụ viết thuê luận văn thạc sĩ của Luận Văn A-Z
  • Giảm 2% dịch vụ viết thuê luận án tiến sĩ của Luận Văn A-Z

TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance

Giá gốc là: 50.000 VNĐ.Giá hiện tại là: 0 VNĐ.

Nghiên cứu này giới thiệu TAT-QA, một bộ dữ liệu quy mô lớn mới cho việc trả lời câu hỏi (QA) trên dữ liệu hỗn hợp, kết hợp nội dung dạng bảng và văn bản từ các báo cáo tài chính thực tế. Bộ dữ liệu này đòi hỏi khả năng suy luận số học để đưa ra câu trả lời, bao gồm các phép tính như cộng, trừ, nhân, chia, đếm, so sánh và sắp xếp. Nghiên cứu cũng đề xuất mô hình QA mới TAGOP, có khả năng suy luận trên cả bảng và văn bản bằng cách sử dụng kỹ thuật gán nhãn chuỗi để trích xuất thông tin liên quan và áp dụng các toán tử tổng hợp để đưa ra câu trả lời cuối cùng. Kết quả thử nghiệm cho thấy TAGOP vượt trội hơn các mô hình cơ sở khác, nhưng vẫn còn khoảng cách đáng kể so với hiệu suất của con người, cho thấy TAT-QA là một thử thách lớn và có thể phục vụ như một chuẩn mực để phát triển các mô hình QA mạnh mẽ hơn cho dữ liệu hỗn hợp.

1. Thông tin Nghiên cứu khoa học

  • Tên nghiên cứu tiếng Anh: TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance
  • Tên nghiên cứu tiếng Việt: TAT-QA: Một bộ dữ liệu chuẩn cho bài toán trả lời câu hỏi trên dữ liệu hỗn hợp dạng bảng và văn bản trong lĩnh vực tài chính
  • Tác giả: Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng, Tat-Seng Chua
  • Số trang file pdf: 18
  • Năm: 2021
  • Nơi xuất bản: Không được đề cập cụ thể, nhưng bài báo được tải lên arXiv.
  • Chuyên ngành học: Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP), Trí tuệ nhân tạo (Artificial Intelligence – AI), Tài chính (Finance)
  • Từ khoá: Trả lời câu hỏi (Question Answering), dữ liệu hỗn hợp (hybrid data), dữ liệu dạng bảng (tabular data), dữ liệu dạng văn bản (textual data), suy luận số học (numerical reasoning), tài chính (finance).

2. Nội dung chính

Bài nghiên cứu giới thiệu một bộ dữ liệu mới có tên TAT-QA (Tabular and Textual dataset for Question Answering) được xây dựng từ các báo cáo tài chính thực tế. Điểm đặc biệt của TAT-QA là nó kết hợp cả dữ liệu dạng bảng (table) và dữ liệu dạng văn bản (text), một dạng dữ liệu hỗn hợp phổ biến trong thực tế nhưng chưa được khai thác nhiều trong các nghiên cứu về trả lời câu hỏi (QA). Bộ dữ liệu này đòi hỏi khả năng suy luận số học để đưa ra câu trả lời chính xác, bao gồm các phép tính như cộng, trừ, nhân, chia, đếm, so sánh và sắp xếp, cũng như kết hợp các phép tính này.

Các tác giả cũng đề xuất một mô hình QA mới có tên TAGOP (TAGging and aggregation OPerator) được thiết kế để xử lý cả dữ liệu dạng bảng và văn bản. TAGOP sử dụng kỹ thuật gắn thẻ chuỗi (sequence tagging) để trích xuất các ô dữ liệu liên quan từ bảng và các đoạn văn bản liên quan, sau đó áp dụng suy luận tượng trưng (symbolic reasoning) với một tập hợp các toán tử tổng hợp (aggregation operators) để đưa ra câu trả lời cuối cùng. Theo kết quả thử nghiệm trên TAT-QA, TAGOP đạt được độ chính xác F1 là 58.0%, cao hơn 11.1% so với mô hình cơ sở tốt nhất trước đó. Tuy nhiên, kết quả này vẫn còn kém xa so với hiệu suất của các chuyên gia là 90.8%, cho thấy TAT-QA là một thử thách lớn và có thể được sử dụng làm bộ dữ liệu chuẩn để đào tạo và kiểm tra các mô hình QA mạnh mẽ có khả năng xử lý dữ liệu hỗn hợp.

Trong phần xây dựng bộ dữ liệu, các tác giả đã thu thập khoảng 500 báo cáo tài chính từ một trang web trực tuyến và sử dụng mô hình phát hiện bảng để xác định các bảng trong các báo cáo này. Sau đó, họ sử dụng thư viện Apache PDFBox để trích xuất nội dung bảng và xử lý bằng công cụ chú thích do nhóm tự phát triển. Các bảng được giữ lại có kích thước từ 3 đến 30 hàng và 3 đến 6 cột. Các báo cáo tương ứng với các bảng đã chọn cũng được giữ lại.

Quá trình chú thích được thực hiện bởi các chuyên gia có kiến thức về tài chính. Đầu tiên, họ xây dựng các ngữ cảnh hỗn hợp hợp lệ dựa trên các báo cáo gốc. Một ngữ cảnh hỗn hợp hợp lệ bao gồm một bảng và ít nhất hai đoạn văn bản liên quan xung quanh nó. Các đoạn văn bản này phải mô tả, phân tích hoặc bổ sung cho nội dung trong bảng. Sau đó, các chuyên gia được yêu cầu tạo ra các cặp câu hỏi-trả lời, trong đó các câu hỏi phải hữu ích trong phân tích tài chính thực tế. Họ cũng được khuyến khích tạo ra các câu hỏi có thể được trả lời bởi những người không có nhiều kiến thức về tài chính và sử dụng các từ ngữ thông thường thay vì các từ ngữ xuất hiện trong ngữ cảnh hỗn hợp. Mỗi ngữ cảnh hỗn hợp được tạo ít nhất 6 câu hỏi, bao gồm cả câu hỏi trích xuất và câu hỏi tính toán. Đối với câu hỏi trích xuất, câu trả lời có thể là một hoặc nhiều đoạn văn bản từ bảng hoặc các đoạn văn bản liên quan. Đối với câu hỏi tính toán, cần phải có suy luận số học để đưa ra câu trả lời, bao gồm các phép tính như cộng, trừ, nhân, chia, đếm, so sánh/sắp xếp và kết hợp các phép tính này. Các chuyên gia cũng được yêu cầu chú thích thang đo phù hợp cho câu trả lời số khi cần thiết.

Các câu trả lời trong TAT-QA có ba loại: một hoặc nhiều đoạn văn bản được trích xuất từ bảng hoặc văn bản, cũng như một câu trả lời được tạo ra (thường thu được thông qua suy luận số học). Các chuyên gia cũng cần phải gắn nhãn loại câu trả lời sau khi họ tạo ra một câu trả lời. Đối với các câu trả lời được tạo ra, các dẫn xuất tương ứng được cung cấp để tạo điều kiện phát triển các mô hình QA có thể giải thích được, bao gồm hai loại: 1) một biểu thức số học, ví dụ: (11,386 – 10,353)/10,353) cho Câu hỏi 8 trong Hình 1, có thể được thực thi để đưa ra câu trả lời cuối cùng; và 2) một tập hợp các mục được phân tách bằng “##”, ví dụ: “thiết bị ## dịch vụ doanh nghiệp” cho Câu hỏi 4 trong Hình 1, trong đó số lượng mục bằng với câu trả lời. Các câu hỏi trong TAT-QA được chia thành bốn loại: Đoạn văn bản, Nhiều đoạn văn bản, Số học và Đếm, trong đó hai loại sau tương ứng với hai loại độ lệch trên, để giúp các tác giả điều tra tốt hơn khả năng suy luận số học của mô hình QA.

Đối với mỗi câu trả lời, các chuyên gia được yêu cầu chỉ định nguồn gốc của nó, bao gồm Bảng, Văn bản và Bảng-Văn bản (cả hai). Điều này là để buộc mô hình học cách tổng hợp thông tin từ các nguồn hỗn hợp để suy ra câu trả lời, do đó nâng cao khả năng khái quát hóa của nó.

Để đảm bảo chất lượng chú thích trong TAT-QA, các tác giả đã áp dụng các quy trình kiểm soát chất lượng nghiêm ngặt. Các chuyên gia chú thích là sinh viên đại học chuyên ngành tài chính hoặc các ngành tương tự. Tất cả các ứng viên chú thích đều phải trải qua một bài kiểm tra nhỏ và chỉ những người có tỷ lệ chính xác 95% mới được thuê. Trước khi bắt đầu công việc chú thích, các tác giả đã cung cấp một buổi đào tạo cho các chuyên gia chú thích để giúp họ hiểu đầy đủ các yêu cầu chú thích và cũng học cách sử dụng hệ thống chú thích. Mỗi chú thích được hai người xác minh khác nhau thực hiện xác thực hai vòng sau khi được gửi, bao gồm kiểm tra và phê duyệt, để đảm bảo chất lượng của nó.

Thống kê cơ bản của mỗi bộ được trình bày trong Bảng 1 và phân phối câu hỏi liên quan đến nguồn trả lời và loại câu trả lời trong Bảng 2. Các tác giả cung cấp một ví dụ từ TAT-QA, thể hiện các loại suy luận khác nhau và tỷ lệ phần trăm của mỗi loại suy luận trên toàn bộ bộ dữ liệu (Hình 1).

Mô hình TAGOP sử dụng kỹ thuật gắn thẻ chuỗi để trích xuất các ô liên quan từ bảng và các đoạn văn bản từ các đoạn văn bản. Sau đó, TAGOP thực hiện suy luận tượng trưng trên chúng với một tập hợp các toán tử tổng hợp để đưa ra câu trả lời cuối cùng. Có mười loại toán tử tổng hợp được sử dụng: Span-in-text, Cell-in-table, Spans, Sum, Count, Average, Multiplication, Division, Difference và Change ratio. Để dự đoán toán tử tổng hợp phù hợp, một bộ phân loại đa lớp được phát triển. Đối với các toán tử Difference, Division và Change ratio, thứ tự của hai số đầu vào quan trọng trong kết quả cuối cùng. Do đó, một bộ phân loại thứ tự số được thêm vào sau chúng.

Để đạt được dự đoán đúng về câu trả lời số không chỉ bao gồm số đúng mà còn cả thang đo chính xác, một bộ phân loại đa lớp được phát triển để dự đoán thang đo. Nói chung, thang đo trong TAT-QA có thể là None, Thousand, Million, Billion và Percent.

Để tối ưu hóa TAGOP, tổn thất tổng thể là tổng của tổn thất của bốn nhiệm vụ phân loại trên: gắn thẻ, toán tử, thang đo và thứ tự.

Các tác giả đã so sánh TAGOP với ba loại mô hình QA trước đây: mô hình QA văn bản (BERT-RC và NumNet+ V2), mô hình QA dạng bảng (TaPas cho WTQ) và mô hình QA hỗn hợp (HyBrider). Kết quả cho thấy TAGOP luôn vượt trội hơn các đường cơ sở khác về cả hai chỉ số EM và F1.

Phân tích sâu hơn về hiệu suất chi tiết của TAGOP liên quan đến loại và nguồn câu trả lời cho thấy TAGOP hoạt động tốt hơn trên các câu hỏi có câu trả lời dựa trên bảng so với các câu hỏi từ văn bản. Điều này có thể là do các ô bảng có ranh giới rõ ràng hơn các đoạn văn bản đối với mô hình, do đó mô hình tương đối dễ dàng trích xuất bằng chứng hỗ trợ từ các bảng bằng cách sử dụng kỹ thuật gắn thẻ chuỗi.

Phân tích sai sót cho thấy khoảng 84% sai sót là do không trích xuất được bằng chứng hỗ trợ từ bảng và đoạn văn bản cho một câu hỏi nhất định. Một nguồn lỗi thú vị khác là sự phụ thuộc vào kiến thức miền. Cần nỗ lực hơn để tăng cường khả năng tổng hợp chính xác thông tin của mô hình từ các ngữ cảnh hỗn hợp. Làm thế nào để tích hợp kiến thức tài chính như vậy vào các mô hình QA để trả lời các câu hỏi trong TAT-QA vẫn cần được khám phá thêm.

3. Kết luận

Nghiên cứu này giới thiệu TAT-QA, một bộ dữ liệu QA đầy thách thức bao gồm các ngữ cảnh hỗn hợp thực tế, trong đó bảng chứa các số và có sự phụ thuộc toàn diện vào văn bản trong lĩnh vực tài chính. Để trả lời các câu hỏi trong TAT-QA, cần có mối quan hệ chặt chẽ giữa bảng và đoạn văn bản cũng như suy luận số học. Các tác giả cũng đề xuất một mô hình cơ sở TAGOP dựa trên TAT-QA, tổng hợp thông tin từ ngữ cảnh hỗn hợp và thực hiện suy luận số học trên đó với các toán tử được xác định trước để tính toán câu trả lời cuối cùng. Các thí nghiệm cho thấy bộ dữ liệu TAT-QA rất thách thức và cần nỗ lực hơn để giải quyết các nhiệm vụ QA trên dữ liệu hỗn hợp. Bộ dữ liệu TAT-QA và mô hình TAGOP sẽ đóng vai trò là điểm chuẩn và đường cơ sở tương ứng để giúp xây dựng các mô hình QA tiên tiến hơn, tạo điều kiện phát triển các công nghệ QA để giải quyết dữ liệu hỗn hợp phức tạp và thực tế hơn, đặc biệt là những dữ liệu yêu cầu suy luận số học.

TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance