Retrieval-Augmented Generation Tóm tắt nội dung

tải về 0.54 Mb.

Chế độ xem pdf

Chuyển đổi dữ liệu	13.01.2024
Kích	0.54 Mb.
	#56310

file
symmedian, graphdb

Retrieval-Augmented Generation
Tóm tắt nội dung
Gần đây, với sự phát triển của các mô hình ngôn ngữ lớn, đã mở ra những cơ hội mới trong lĩnh
vực xử lý ngôn ngữ tự nhiên và thúc đẩy sự tích hợp mạnh mẽ của trí tuệ nhân tạo vào cuộc sống.
Tuy nhiên, những tiến bộ đáng kể này cũng đồng nghĩa với việc phải đối mặt với nhiều thách
thức. Một trong những vấn đề quan trọng là hiện tượng "hallucination" - ảo giác, tức là sự xuất
hiện của thông tin không chính xác, không phản ánh đúng sự thật hoặc không được hỗ trợ bởi dữ
liệu có sẵn. Hiện tượng này mang theo những rủi ro nghiêm trọng, có thể dẫn đến việc cung cấp
thông tin sai lệch và làm giảm độ tin cậy của các hệ thống trí tuệ nhân tạo. Trong bài viết này,
chúng ta sẽ tìm hiểu về Retrieval Augmented Generation (RAG), một kỹ thuật cực kỳ hữu ích và
đang được áp dụng rộng rãi để giải quyết thách thức này cũng như một ví dụ số liệu cụ thể để
trực quan hiệu suất của nó.
Một số vấn đề thường gặp khi áp dụng LLM
LLM bị lỗi thời: Ví dụ như dữ liệu đào tạo của ChatGPT 3.5 bị đóng băng ở thời điểm cuối
tháng 1/2022. Nếu hỏi ChatGPT về một sự kiện nào đó sau thời gian đó, tình hình thời tiết, sự
kiện mới, ... thì nó sẽ không những không cung cấp được thông tin chính xác cho bạn mà còn có
thể sẽ "ảo tưởng" ra một câu trả lời nghe có vẻ rất thuyết phục.
Thiếu kiến thức chuyên sâu: LLM được đào tạo để xử lý các nhiệm vụ tổng quát, nghĩa là nó
sẽ không biết dữ liệu riêng tư của người dùng, dữ liệu các doanh nghiệp, các công ty, cũng như
thiếu các kiến thức chuyên sâu hoặc thông tin về một đối tượng rất cụ thể nào đó. Điều này có
nghĩa là nó có thể không cung cấp thông tin chính xác hoặc đầy đủ đối với các lĩnh vực chuyên
sâu.
LLM hoạt động như một hộp đen: Cách mà LLM đưa ra câu trả lời không cho phép chúng
ta biết được nó đã sử dụng nguồn thông tin nào để tạo ra câu trả lời đó. Điều này làm tăng khả
năng không kiểm soát được về nguồn gốc của thông tin và có thể gây ra rủi ro đối với tính minh
bạch và độ tin cậy.
Chúng ta có thể giải quyết được một phần nào vấn đề "ảo giác" bằng prompt engineering. Tuy nhiên để
LLM có thể trả lời các câu hỏi yêu cầu những thông tin mới, thông tin chuyên ngành thì chúng ta cần
đến một công cụ mạnh mẽ hơn.

Retrieval-augmented Generation (RAG)
Retrieval-augmented generation (RAG) là framework trí tuệ nhân tạo kết hợp giữa các mô hình ngôn
ngữ được đào tạo trước, như GPT-4, với một cơ chế truy xuất. Cơ chế truy xuất hoạt động như một
cầu nối giữa mô hình ngôn ngữ và một nguồn thông tin đồ sộ, cho phép RAG truy xuất dữ liệu hoặc
ngữ cảnh cụ thể từ các nguồn như internet, tài liệu hoặc cơ sở dữ liệu. Sự tích hợp này giúp RAG tạo
ra các phản ứng có ngữ cảnh liên quan và chính xác bằng cách trích xuất thông tin từ nguồn kiến thức
mở rộng hoặc cơ sở dữ liệu có cấu trúc. Phương pháp này rất hiệu quả cho các nhiệm vụ yêu cầu truy
cập thông tin mới nhất.
1. RAG hoạt động như nào
Bước 1: Truy xuất thông tin
Mô hình truy xuất nhận đầu vào, ví dụ một truy vấn hoặc một prompt, và sử dụng hệ thống truy
xuất để tìm kiếm trong một cơ sở dữ liệu lớn các tài liệu nhằm lấy ra những tài liệu liên quan nhất
đến đầu vào đó.
Nó sử dụng các kỹ thuật khác nhau như TF-IDF, BM25, hoặc các phương pháp neuron như dense
retrievers (ví dụ DPR, ...) để xếp hạng và chọn lựa thông tin quan trọng nhất.
Thông tin được chọn sau đó được chuyển đến mô hình tạo sinh.
Bước 2: Tạo sinh
Mô hình tạo sinh sử dụng một transformer chuỗi-qua-chuỗi để lấy câu trả lời của người dùng và
ngữ cảnh được truy xuất và tạo ra một phản hồi liên kết và phù hợp với ngữ cảnh. Transformer
này không chỉ xem xét đầu vào ban đầu mà còn xem xét các tài liệu đã được truy xuất, đảm bảo
rằng câu trả lời được tạo ra là chính xác và ý nghĩa.
Nó có thể được tinh chỉnh cho các nhiệm vụ cụ thể, chẳng hạn như trả lời câu hỏi, tóm tắt tài liệu,
hoặc thậm chí là tham gia trong các cuộc trò chuyện bằng ngôn ngữ tự nhiên.
Câu trả lời cuối cùng là sự kết hợp của thông tin được truy xuất và khả năng tạo sinh của mô
hình.
2. Ưu điểm
Truy cập vào kiến thức phong phú: RAG có thể truy cập một lượng thông tin lớn từ cơ sở kiến
thức. Điều này cho phép nó tạo ra các phản ứng dựa trên thông tin mới nhất, làm cho nó đặc biệt
hiệu quả đối với các nhiệm vụ yêu cầu truy cập vào dữ liệu hiện tại.
Tăng cường tính liên quan: Bằng cách kết hợp mô hình truy xuất và mô hình tạo ra, RAG có thể
tạo ra các phản ứng có tính liên quan ngữ cảnh hơn. Nó truy xuất thông tin liên quan đến câu hỏi
đầu vào và sử dụng thông tin này để tạo ra một phản ứng, dẫn đến kết quả đầu ra chính xác và
liên quan đến câu hỏi của người dùng.
Tăng cường độ chính xác: RAG cải thiện độ chính xác của các phản ứng được tạo ra bằng cách
truy xuất các tài liệu liên quan từ bộ nhớ phi tham số của nó và sử dụng chúng như là ngữ cảnh
cho quá trình tạo ra. Điều này dẫn đến các phản ứng không chỉ chính xác về ngữ cảnh mà còn
đúng về sự kiện.
Giảm thiểu "ảo giác": RAG giảm thiểu "ảo giác". Bằng cách truy xuất và sử dụng các tài liệu liên
quan từ cơ sở kiến thức, RAG đảm bảo rằng các phản ứng được tạo ra là chính xác về sự kiện và
phù hợp với ngữ cảnh, từ đó giảm thiểu khả năng "ảo giác".
Khả năng mở rộng: Các mô hình RAG có thể được mở rộng bằng cách tăng kích thước của cơ sở
kiến thức hoặc sử dụng các mô hình ngôn ngữ trước đây mạnh mẽ hơn. Điều này làm cho RAG trở
thành một giải pháp linh hoạt và có khả năng mở rộng cho nhiều loại nhiệm vụ tạo ra ngôn ngữ.
Hiệu quả: RAG vượt qua nhu cầu về việc đào tạo lại thường được yêu cầu bởi các mô hình khác,
cho phép nó truy cập vào thông tin mới nhất để tạo ra các kết quả đáng tin cậy thông qua quá
trình tạo ra dựa trên truy xuất. Điều này làm cho RAG trở thành một công cụ hiệu quả cho các
tình huống mà sự thay đổi của các sự kiện có thể xảy ra theo thời gian.

3. Ứng dụng
Nâng cao hỗ trợ khách hàng: Triển khai RAG trong lĩnh vực hỗ trợ khách hàng đã dẫn đến việc
phát triển chatbot và trợ lý ảo tiên tiến. Những hệ thống thông minh này cung cấp trải nghiệm
tương tác cá nhân hóa và chính xác hơn cho khách hàng, dẫn đến thời gian phản hồi nhanh chóng,
hiệu suất vận hành cao, và cuối cùng là mức độ hài lòng của khách hàng với dịch vụ hỗ trợ tăng
cao.
Tạo nội dung: Khả năng của RAG mở rộng đến việc tạo nội dung, hỗ trợ doanh nghiệp trong việc
soạn thảo bài blog, bài viết, danh mục sản phẩm và các hình thức nội dung khác. Bằng cách kết
hợp khả năng sáng tạo của mình với thông tin thu được từ các nguồn đáng tin cậy, cả ngoại vi và
nội bộ, RAG hỗ trợ việc tạo ra nội dung chất lượng và thông tin.
Hỗ trợ nghiên cứu thị trường: RAG có thể sử dụng nguồn dữ liệu phong phú trên internet, bao
gồm tin tức thời sự, báo cáo nghiên cứu ngành và nội dung trên mạng xã hội, cho mục đích nghiên
cứu thị trường. Doanh nghiệp có thể theo dõi xu hướng thị trường và có cái nhìn sâu sắc vào hoạt
động của đối thủ, giúp họ đưa ra quyết định có hiểu biết.
Hỗ trợ chiến lược bán hàng: RAG được sử dụng như một trợ lý bán hàng ảo, khéo léo trong việc
giải đáp các câu hỏi của khách hàng về chi tiết sản phẩm, truy xuất thông số kỹ thuật, giải thích
hướng dẫn sử dụng và nói chung là hỗ trợ khách hàng trong quá trình mua sắm. Bằng cách kết hợp
khả năng sáng tạo với danh mục sản phẩm toàn diện, dữ liệu giá và thậm chí là phản hồi từ khách
hàng trên các nền tảng truyền thông xã hội, RAG có thể đưa ra các gợi ý cá nhân, giải quyết lo
ngại của khách hàng và nâng cao trải nghiệm mua sắm tổng thể.
Nâng cao trải nghiệm nhân viên: RAG đóng vai trò quan trọng trong việc cải thiện động lực nội
bộ của tổ chức bằng cách hỗ trợ nhân viên tạo và chia sẻ một kho kiến thức chuyên gia tập trung.
Bằng cách tích hợp mượt mà với cơ sở dữ liệu và tài liệu nội bộ, RAG trang bị nhân viên với các
câu trả lời chính xác cho các câu hỏi liên quan đến hoạt động của công ty, quyền lợi, quy trình,
văn hóa doanh nghiệp, cấu trúc tổ chức và nhiều hơn nữa.
4. Thách thức
Độ trễ: Bước truy xuất có thể gây độ trễ, đặc biệt là nếu nguồn thông tin bên ngoài là rộng lớn.
Tính liên quan: Đảm bảo rằng thông tin được truy xuất luôn liên quan đến câu truy vấn có thể là
một thách thức.
Kết quả thực tế
Thực nghiệm này của Fangrui Liu và các đồng nghiệp tập trung vào xác định sự tăng cường hiệu suất
với RAG trên bộ dữ liệu MMLU phổ biến. Họ nhận thấy rằng cả hiệu suất của các mô hình ngôn ngữ
lớn thương mại và mã nguồn mở đều có thể được cải thiện đáng kể khi kiến thức có thể được truy xuất
từ Wikipedia bằng cách sử dụng một cơ sở dữ liệu vector (ví dụ MyScale). Điều thú vị hơn, kết quả này
được đạt được ngay cả khi Wikipedia đã có trong tập huấn luyện của những mô hình này.
Hai yếu tố chính ảnh hưởng đến hệ thống RAG:
LLM có thể học được bao nhiêu từ bối cảnh bên ngoài?
Bối cảnh bên ngoài chính xác và liên quan đến mức nào?
Cả hai yếu tố này đều khó đánh giá. Kiến thức mà LLM thu được từ ngữ cảnh là tiềm ẩn, vì vậy cách
thực tế nhất để đánh giá các yếu tố này là kiểm tra câu trả lời của LLM. Tuy nhiên, độ chính xác của
bối cảnh được truy xuất cũng khó đánh giá.

Dự án Mô Hình Cơ Bản End-to-End Cho hệ thống RAG
Trong này, họ tập trung vào một mô hình cơ bản được đánh giá trên bộ dữ liệu MMLU (Massive
Multitask Language Understanding Dataset), một bộ kiểm tra phổ biến cho các mô hình ngôn ngữ lớn,
chứa đựng câu hỏi lựa chọn đơn đáp án trên nhiều chủ đề như lịch sử, thiên văn học và kinh tế.
Họ đặt ra để tìm hiểu liệu một mô hình ngôn ngữ lớn có thể học từ ngữ cảnh bổ sung bằng cách để nó
trả lời các câu hỏi lựa chọn trắc nghiệm.
Để đạt được mục tiêu, họ chọn Wikipedia làm nguồn thông tin vì nó bao gồm nhiều chủ đề và lĩnh
vực kiến thức. Và họ đã sử dụng phiên bản đã được Cohere.ai làm sạch trên Hugging Face, bao gồm
34,879,571 đoạn văn thuộc 5,745,033 tiêu đề. Việc tìm kiếm toàn bộ các đoạn văn này sẽ mất khá nhiều
thời gian, nên cần sử dụng các thuật toán ANNS (Approximate Nearest Neighbor Search) thích hợp để
truy xuất tài liệu liên quan. Ngoài ra, họ sử dụng cơ sở dữ liệu MyScale với chỉ mục vector MSTG để
truy xuất các tài liệu liên quan.
a. Mô hình tìm kiếm ngữ nghĩa
Tìm kiếm ngữ nghĩa là một chủ đề được nghiên cứu kỹ lưỡng với nhiều mô hình và bảng đánh giá chi
tiết. Khi tích hợp với nhúng vector, tìm kiếm ngữ nghĩa có khả năng nhận diện các diễn đạt diễn giải
lại, từ đồng nghĩa và hiểu biết ngữ cảnh.
Hơn nữa, nhúng cung cấp các biểu diễn vector dày đặc và liên tục cho phép tính toán các chỉ số có ý
nghĩa về mức độ liên quan. Những chỉ số dày đặc này bắt kịp mối quan hệ và ngữ cảnh ngữ nghĩa, làm
cho chúng có giá trị trong việc đánh giá sự liên quan trong các nhiệm vụ truy xuất thông tin của mô
hình ngôn ngữ lớn.
Xem xét các yếu tố đã nêu, họ đã quyết định sử dụng mô hình paraphrase-multilingual-mpnet-base-v2
từ Hugging Face để trích xuất đặc trưng cho các nhiệm vụ truy xuất. Mô hình này là một phần của họ
MPNet, được thiết kế để tạo ra nhúng chất lượng cao phù hợp cho nhiều nhiệm vụ xử lý ngôn ngữ tự
nhiên, bao gồm đo lường tương đồng ngữ nghĩa và truy xuất.
b. Mô hình ngôn ngữ lớn (LLMs)
Đối với các LLMs, họ đã chọn GPT-3.5-Turbo của OpenAI và Llama2-13b-chat với việc giảm chất lượng
thành sáu bit. Những mô hình này là những mô hình phổ biến nhất trong xu hướng thương mại và mã
nguồn mở. Mô hình LLaMA2 được giảm chất lượng bằng llama.cpp. Họ đã chọn cài đặt giảm chất lượng
6 bit này vì nó giúp tiết kiệm chi phí mà không làm giảm hiệu suất.
c. Hệ thống RAG
Hình ảnh sau mô tả cách xây dựng một hệ thống RAG đơn giản:
Đánh Giá Hiệu Suất Cơ Bản cho Hệ Thống RAG
Lưu ý: Transform có thể là bất cứ thứ gì miễn là nó có thể được đưa vào LLM, trả về câu trả lời chính
xác. Trong trường hợp của họ, Transform chèn ngữ cảnh vào câu hỏi.

Câu lệnh cuối cùng của họ cho LLMs là như sau:
Nhận định từ Nhiều Kết Quả Đánh Giá
Các kết luận tổng kết của họ:
Bổ sung ngữ cảnh thường thêm lợi ích
Thêm ngữ cảnh đôi khi mang lại lợi ích
Các mô hình nhỏ đòi hỏi nhiều kiến thức hơn
Bảng: Độ chính xác truy xuất với ngữ cảnh khác nhau
Trong những bài kiểm thử đánh giá này, họ so sánh hiệu suất giữa việc có và không có ngữ cảnh. Thử
nghiệm không có ngữ cảnh đại diện cho cách kiến thức nội tại có thể giải quyết các câu hỏi, thử nghiệm
có ngữ cảnh thể hiện cách một LLM có thể học từ ngữ cảnh.
a. Bổ sung ngữ cảnh thường thêm lợi ích
Cả hai mô hình llama2-13b-chat và gpt-3.5-turbo đều được cải thiện khoảng 3-5% tổng thể, ngay cả khi
chỉ có một ngữ cảnh bổ sung.
Bảng báo cáo rằng một số con số là âm, ví dụ, khi họ chèn ngữ cảnh vào kiến thức lâm sàng cho
gpt-3.5-turbo.
Điều này có thể liên quan đến cơ sở kiến thức, nói rằng Wikipedia không có nhiều thông tin về kiến thức
lâm sàng hoặc vì điều khoản sử dụng và hướng dẫn của OpenAI rõ ràng nêu rằng việc sử dụng mô hình
AI của họ để đưa ra lời khuyên y tế được khuyến khích mạnh mẽ và có thể bị cấm. Mặc dù vậy, sự tăng
cường là khá rõ ràng đối với cả hai mô hình.
Đáng chú ý, kết quả của gpt-3.5-turbo cho rằng hệ thống RAG có thể đủ mạnh mẽ để cạnh tranh với
các mô hình ngôn ngữ khác. Một số con số được báo cáo, như những con số về tiền sử học và thiên văn
học, đều hướng đến hiệu suất của gpt4 với các token bổ sung, gợi ý rằng RAG có thể là một giải pháp
khác cho Trí tuệ Nhân tạo Tổng quát (AGI) chuyên sâu so với việc điều chỉnh tinh chỉnh.
Lưu ý: RAG là một giải pháp thực tế hơn so với các mô hình điều chỉnh tinh chỉnh vì nó là một giải
pháp cắm và chạy và hoạt động cả với các mô hình tự lưu trữ và từ xa.

b. Thêm ngữ cảnh đôi khi mang lại lợi ích
Bảng kiểm tra trên cho thấy rằng có càng nhiều ngữ cảnh càng tốt. Trong hầu hết các trường hợp, LLM
sẽ học từ tất cả các ngữ cảnh được cung cấp. Lý thuyết cho thấy mô hình sẽ cung cấp câu trả lời tốt
hơn khi số lượng tài liệu truy xuất tăng lên. Tuy nhiên, bảng kiểm tra của cũng cho thấy một số con số
giảm khi số lượng ngữ cảnh truy xuất càng nhiều.
Để xác nhận kết quả của bảng kiểm tra, một bài báo của Đại học Stanford có tựa đề: "Lost in the
Middle: How Language Models Use Long Contexts" đề xuất rằng LLM chỉ xem xét đầu và đuôi của ngữ
cảnh. Do đó, hãy chọn ít nhưng ngữ cảnh chính xác từ hệ thống truy xuất để tăng cường LLM của bạn.
c. Các mô hình nhỏ đòi hỏi nhiều kiến thức hơn
LLM càng lớn, nó lưu trữ càng nhiều kiến thức. Những LLM lớn thường có khả năng lưu trữ và hiểu
thông tin lớn hơn, điều này thường dẫn đến một cơ sở kiến thức rộng lớn về những sự thật nói chung.
Những thử nghiệm đánh giá hiệu suất của họ kể lại câu chuyện tương tự: những LLM nhỏ hơn thiếu
kiến thức và đang đói khát kiến thức hơn.
Kết quả của họ báo cáo rằng llama2-13b-chat thể hiện sự tăng vững vàng hơn về kiến thức so với
gpt-3.5-turbo, gợi ý rằng ngữ cảnh chèn thêm kiến thức vào một LLM để truy xuất thông tin. Ngoài
ra, những kết quả này ngụ ý rằng gpt-3.5-turbo đã được cung cấp thông tin mà nó đã biết trong khi
llama2-13b-chat vẫn đang học từ ngữ cảnh.
Câu hỏi phía sau
Hầu hết mọi LLM sử dụng bộ dữ liệu đào tạo từ Wikipedia, điều này có nghĩa là cả gpt-3.5-turbo và
llama2-13b-chat đều nên quen thuộc với ngữ cảnh được thêm vào câu hỏi. Do đó, những câu hỏi đặt ra
là:
Tại sao có sự tăng trong thử nghiệm đánh giá này?
LLM có thực sự học bằng cách sử dụng ngữ cảnh được cung cấp không? Những ngữ cảnh bổ sung
này có giúp nhớ lại những ký ức đã học từ dữ liệu huấn luyện không?
Hiện tại, họ cũng vẫn chưa có câu trả lời cho những câu hỏi này. Do đó, nghiên cứu vẫn cần được tiếp
tục.

Tổng kết
Họ đã đánh giá một phần nhỏ của MMLU với một hệ thống RAG đơn giản được xây dựng bằng các
LLM, và mô tả quá trình và kết quả của họ trong bài báo. Họ cũng đã đóng góp khung đánh giá này
cho cộng đồng và kêu gọi thêm các thử nghiệm đánh giá RAG.
Kết luận
Bài viết đã nói về khái niệm Retrieval-Augmented Generation (RAG) và ứng dụng của nó trong việc
giảm thiểu các vấn đề "ảo giác" trong các LLL models, cũng như cung cấp thử nghiệm thực tế về RAG
RAG thể hiện sự hợp nhất của hai thành phần cơ bản: truy xuất và tạo sinh. Nó tận dụng độ chính xác
của việc truy xuất thông tin để lấy dữ liệu liên quan từ cơ sở kiến thức rộng lớn và kết hợp nó với khả
năng sáng tạo của các LLL models để tạo ra các phản hồi chính xác về mặt thực tế và mạch lạc theo
ngữ cảnh.

Tài liệu
[1] Thao Hoang Thu:
Retrieval-augmented Generation cứu cánh cho sự ảo tưởng của các llm
[2]
What is Retrieval Augmented Generation (RAG)?
[3] Grow Right:
What is Retrieval Augmented Generation (RAG)?
[4] Rick Merritt:
What Is Retrieval-Augmented Generation aka RAG?
[5] Fangrui Liu:
Discover the Performance Gain with Retrieval Augmented Generation

tải về 0.54 Mb.

Chia sẻ với bạn bè của bạn: