Mặc dù Mô hình Ngôn ngữ (LM) được huấn luyện biết rất nhiều thông tin, nhưng nó vẫn không biết về dữ liệu riêng tư doanh nghiệp và dữ liệu mới. Nhiều ứng dụng LM cần truy vấn dữ liệu riêng tư doanh nghiệp, sau đó nối dữ liệu riêng tư làm thông tin nền vào yêu cầu, và đưa nó vào mô hình lớn để trả lời các câu hỏi dựa trên thông tin nền. LangChain cung cấp các thành phần framework cho việc tải, chuyển đổi, lưu trữ và truy vấn dữ liệu.
Các thành phần của LangChain cho việc xử lý dữ liệu riêng tư bao gồm:
- Trình tải tài liệu: Hỗ trợ tải dữ liệu tài liệu từ các nguồn khác nhau.
- Trình chuyển đổi tài liệu: Chia tài liệu, chuyển đổi tài liệu sang định dạng câu hỏi và trả lời, và loại bỏ tài liệu dư thừa.
- Mô hình nhúng văn bản: Chuyển đổi văn bản không cấu trúc thành vector đặc trưng để hỗ trợ tìm kiếm tương đồng ý nghĩa, chẳng hạn như truy vấn nội dung tương tự câu hỏi.
- Lưu trữ vector: Lưu trữ và tìm kiếm dữ liệu vector.
- Retriever: Lớp tiện ích đóng gói của LangChain cho việc truy vấn dữ liệu một cách thuận tiện.