1/ Thông tin bài báo
- Tên bài báo: TRÍCH XUẤT VÀ PHÂN TÍCH THÔNG TIN TRÊN GOOGLE VỀ SẢN PHẨM CHĂM SÓC SẮC ĐẸP
- Tác giả: Võ Huỳnh Quang Hiếu và Đỗ Phúc
- Số trang: 16-26
- Năm: 2024
- Nơi xuất bản: Tạp chí Khoa học Đại học Cần Thơ
- Từ khoá: Google tìm kiếm, mô hình hồi quy, phân loại văn bản, xử lý ngôn ngữ tự nhiên
2/ Nội dung chính
Bài báo nghiên cứu về việc trích xuất và phân tích thông tin trên Google liên quan đến các sản phẩm chăm sóc sắc đẹp tại Việt Nam, một thị trường có tính cạnh tranh cao. Mục tiêu chính của nghiên cứu là xác định các sản phẩm được người dùng quan tâm tìm kiếm nhiều trên Google, từ đó giúp các nhà đầu tư và doanh nghiệp có được thông tin hữu ích để xây dựng chiến lược kinh doanh và tiếp thị hiệu quả. Bên cạnh đó, nghiên cứu cũng tập trung vào việc dự đoán số liệu tìm kiếm trong tương lai trên Google bằng các thuật toán học máy, nhằm cung cấp thông tin dự báo giúp các doanh nghiệp đưa ra quyết định đầu tư và kinh doanh chính xác hơn. Để đạt được mục tiêu này, bài báo đã thực hiện quy trình thu thập dữ liệu từ các trang web được xếp hạng cao trên Google, tiền xử lý dữ liệu, trích xuất thông tin và phân tích nội dung.
Nghiên cứu đã sử dụng bộ từ khóa “kem trị nám” để thu thập dữ liệu từ 50 trang web tiếng Việt được xếp hạng cao nhất trên Google vào tháng 8/2023. Sau khi thu thập, dữ liệu được tiền xử lý để loại bỏ nhiễu và chuẩn hóa, bao gồm các bước: chuyển đổi về chữ thường, chuyển đổi về mã Unicode, loại bỏ URLs, loại bỏ ký tự đặc biệt và số, loại bỏ khoảng trắng thừa. Sau đó, các cụm từ liên quan đến sản phẩm được trích xuất, loại bỏ các từ dừng (stopwords) và trực quan hóa thông tin để xác định 10 sản phẩm được quan tâm nhất. Nghiên cứu cũng sử dụng công cụ Google Ads để thu thập số liệu tìm kiếm trong quá khứ của các sản phẩm này. Các thuật toán hồi quy như Simple Linear Regression (SLR), Multi Linear Regression (MLR), Decision Tree Regression (DTR), Random Forest Regression (RFR) và Support Vector Regression (SVR) được sử dụng để dự đoán số liệu tìm kiếm trong tương lai. Kết quả của các mô hình được đánh giá bằng các độ đo như R-squared (R2), Mean Absolute Error (MAE) và Mean Squared Error (MSE).
Kết quả thực nghiệm cho thấy mô hình Random Forest Regression (RFR) cho kết quả dự đoán tốt nhất với độ chính xác cao, có thể giúp các nhà đầu tư và doanh nghiệp đánh giá được tiềm năng của sản phẩm, lập kế hoạch kinh doanh và marketing hiệu quả. Các mô hình SLR, MLR và SVR có kết quả kém hơn, còn mô hình DTR bị overfitting. Dựa trên kết quả mô hình RFR, số liệu tìm kiếm trong tương lai của các sản phẩm như Sakura, Ohui, Laneige và Ol cell được dự đoán. Phân tích các biểu đồ kết quả dự đoán, nghiên cứu đã đưa ra những nhận xét về xu hướng tăng trưởng của các sản phẩm, giúp doanh nghiệp có cơ sở để đưa ra quyết định đầu tư. Nghiên cứu cũng chỉ ra những thách thức trong việc xử lý ngôn ngữ tiếng Việt và những hạn chế của dữ liệu đầu vào từ Google, đồng thời đề xuất những yếu tố bên ngoài có thể ảnh hưởng đến xu hướng tìm kiếm trên Google.