Ładowanie danych Markdown dla LangChain

Dzięki za pomoc! Oto tłumaczenie tekstu na język polski:

Markdown

Markdown to lekki język znaczników, który umożliwia formatowanie tekstu za pomocą zwykłego edytora tekstu.

Ten artykuł przedstawia, jak LangChain wczytuje dokumenty Markdown do formatów dokumentów, z których możemy skorzystać w dalszych etapach.

from langchain_community.document_loaders import UnstructuredMarkdownLoader

markdown_path = "../../../../../README.md"
loader = UnstructuredMarkdownLoader(markdown_path)

data = loader.load()

data

[Dokument(page_content="🦜🔗 LangChain\n\n⚡ Budowanie aplikacji za pomocą LLMs poprzez komponowalność ⚡\n\nSzukasz wersji JS/TS? Sprawdź LangChain.js.\n\nWsparcie produkcyjne: Gdy przenosisz swoje LangChainy do produkcji, chcielibyśmy zaoferować bardziej kompleksowe wsparcie.\nProsimy wypełnić ten formularz, a my utworzymy dedykowany kanał wsparcia na Slacku.\n\nSzybka instalacja\n\npip install langchain\nlub\nconda install langchain -c conda-forge\n\n🤔 Co to jest?\n\nDuże modele językowe (LLMs) stają się technologią transformacyjną, umożliwiającą programistom tworzenie aplikacji, których wcześniej nie mogli. Jednakże używanie tych LLMs w izolacji często jest niewystarczające do stworzenia naprawdę potężnej aplikacji - prawdziwa siła pojawia się, gdy można je połączyć z innymi źródłami obliczeń lub wiedzy.\n\nTa biblioteka ma na celu wspieranie rozwoju tego rodzaju aplikacji. Powszechne przykłady tych aplikacji obejmują:\n\n📚 Odpowiedzi na pytania dotyczące konkretnych dokumentów\n\nDokumentacja\n\nPrzykład end-to-end: Odpowiadanie na pytania dotyczące bazy danych Notion\n\n📬 Chatboty\n\nDokumentacja\n\nPrzykład end-to-end: Chat-LangChain\n\n🤖 Agenci\n\nDokumentacja\n\nPrzykład end-to-end: GPT+WolframAlpha\n\n📝 Dokumentacja\n\nZobacz tutaj pełną dokumentację dotyczącą:\n\nPierwsze kroki (instalacja, konfiguracja środowiska, proste przykłady)\n\nPrzykłady w praktyce (dema, integracje, funkcje pomocnicze)\n\nReferencje (pełna dokumentacja API)\n\nZasoby (wysokopoziomowe wyjaśnienie podstawowych pojęć)\n\n🚀 W czym to może pomóc?\n\nIstnieje sześć głównych obszarów, w których LangChain ma pomóc.\nSą to, zwiększająco w kolejności złożoności:\n\n📃 LLMs i Komendy:\n\nObejmuje zarządzanie komendami, optymalizację komend, ogólny interfejs dla wszystkich LLMs oraz narzędzia pomocnicze do pracy z LLMs.\n\n🔗 Łańcuchy:\n\nŁańcuchy wykraczają poza pojedyncze wywołanie LLM i obejmują sekwencje wywołań (zarówno do LLM, jak i innych narzędzi). LangChain zapewnia standardowy interfejs dla łańcuchów, dużo integracji z innymi narzędziami oraz end-to-end łańcuchy dla powszechnych zastosowań.\n\n🚚 Generacja Wzbogacona Danymi:\n\nGeneracja Wzbogacona Danymi to określone typy łańcuchów, które najpierw współpracują z zewnętrznym źródłem danych, aby pobrać dane do użycia w kroku generacji. Przykłady obejmują streszczanie długich tekstów i pytania/odpowiedzi dotyczące konkretnych źródeł danych.\n\n🤖 Agenci:\n\nAgenci obejmują LLM podejmujący decyzje dotyczące wykonania akcji, wykonujący tę akcję, widzący obserwację i powtarzający to, aż zakończone. LangChain zapewnia standardowy interfejs dla agentów, wybór agentów do wyboru oraz przykłady end-to-end agentów.\n\n🧠 Pamięć:\n\nPamięć odnosi się do trwałego przechowywania stanu między wywołaniami łańcucha/agenta. LangChain zapewnia standardowy interfejs dla pamięci, zbiór implementacji pamięci oraz przykłady łańcuchów/agentów, które wykorzystują pamięć.\n\n📐 Ocena:\n\n[BETA] Modele generatywne są notorycznie trudne do oceny za pomocą tradycyjnych metryk. Jednym nowym sposobem ich oceny jest wykorzystanie samych modeli językowych do przeprowadzenia oceny. LangChain zapewnia pewne komendy/łańcuchy do pomocy w tym.\n\nAby uzyskać więcej informacji na temat tych koncepcji, zobacz naszą pełną dokumentację.\n\n📁 Współpraca\n\nJako projekt open-source w szybko rozwijającym się obszarze, jesteśmy bardzo otwarci na wkłady, czy to w postaci nowej funkcji, ulepszonej infrastruktury czy lepszej dokumentacji.\n\nDla szczegółowych informacji na temat jak współpracować, zobacz tutaj.", metadata={'source': '../../../../../README.md'})]

Proszę, daj mi znać, jeśli potrzebujesz czegoś jeszcze! Za kulisami Unstructured tworzy różne "elementy" dla różnych bloków tekstu. Domyślnie łączymy je razem, ale łatwo można zachować tę separację, określając mode="elements".

loader = UnstructuredMarkdownLoader(markdown_path, mode="elements")

data = loader.load()

data[0]

Dokument(page_content='ð\x9f¦\x9cï¸\x8fð\x9f”\x97 LangChain', metadata={'source': '../../../../../README.md', 'page_number': 1, 'category': 'Tytuł'})

Markdown

Powiązane Tutoriale