تقسیم کد با LangChain

تقسیم کد

در این فصل به معرفی تقسیم‌کننده متن کد LangChain می‌پردازیم. اگر نیاز دارید کد را به قسمت‌های کوچک‌تر تقسیم کنید، باید مطلب این فصل را به دقت مطالعه نمایید. کد تقسیم‌کننده‌ی متن به چندین زبان برنامه‌نویسی را پشتیبانی می‌کند.

نصب وابستگی‌ها

%pip install -qU langchain-text-splitters

سپس، شما باید شما باید از شاخص زبان وارد شده و ببینید کدام زبان‌های برنامه‌نویسی برای تقسیم کد پشتیبانی می‌شود.

from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

[e.value for e in Language]

['cpp',
     'go',
     'java',
     'js',
     'php',
     'proto',
     'python',
     'rst',
     'ruby',
     'rust',
     'scala',
     'swift',
     'markdown',
     'latex',
     'html',
     'sol',]

RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\\nclass ', '\\ndef ', '\\n\\tdef ', '\\n\\n', '\\n', ' ', '']

پایتون

در ادامه، مثالی از استفاده از تقسیم‌کننده‌ی PythonTextSplitter برای تقسیم کد آورده شده است.

PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

hello_world()
"""
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)
python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

    [Document(page_content='def hello_world():\\\\n    print("Hello, World!")', metadata={}),     Document(page_content='# Call the function\\\\nhello_world()', metadata={})]

جاوااسکریپت

در ادامه، مثالی از استفاده از تقسیم‌کننده متن JS برای تقسیم کد JS آورده شده است.

JS_CODE = """
function helloWorld() {
  console.log("Hello, World!");
}

// Call the function
helloWorld();
"""

js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS, chunk_size=60, chunk_overlap=0
)
js_docs = js_splitter.create_documents([JS_CODE])
js_docs

[Document(page_content='function helloWorld() {\n  console.log("Hello, World!");\n}', metadata={}),
     Document(page_content='// Call the function\nhelloWorld();', metadata={})]

مارک‌دان

در ادامه، یک مثال از تقسیم کد مارک‌دان آورده شده است.

markdown_text = """

⚡ ساخت برنامه‌ها با استفاده از LLMs از طریق ترکیب‌پذیری ⚡


\`\`\`bash
pip install langchain
\`\`\`

به عنوان یک پروژهٔ منبع باز در یک زمینهٔ به سرعت در حال توسعه، ما به شدت به مشارکت‌ها باز است.
"""

md_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.MARKDOWN, chunk_size=60, chunk_overlap=0
)
md_docs = md_splitter.create_documents([markdown_text])
md_docs

[Document(page_content='# ?️? LangChain', metadata={}),
     Document(page_content='⚡ ساخت برنامه‌ها با استفاده از LLMs از طریق ترکیب‌پذیری ⚡', metadata={}),
     Document(page_content='## نصب سریع', metadata={}),
     Document(page_content="```bash\n# امیدواریم این بلوک کد تقسیم نشود", metadata={}),
     Document(page_content='pip install langchain', metadata={}),
     Document(page_content='```', metadata={}),
     Document(page_content='به عنوان یک پروژهٔ منبع باز در یک زمینهٔ به سرعت در حال توسعه، ما', metadata={}),
     Document(page_content='به شدت به مشارکت‌ها باز است.', metadata={})]

latex_text = """
\documentclass{article}

\begin{document}

\maketitle

\section{Introduction}
مدل‌های زبان بزرگ (LLMs) نوعی از مدل یادگیری ماشین هستند که می‌توانند بر روی مقادیر گسترده‌ای از داده‌های متنی آموزش ببینند تا زبان شبیه به زبان انسان ایجاد کنند. در سال‌های اخیر، مدل‌های زبان بزرگ پیشرفت‌های قابل توجهی را در انواع وظایف پردازش زبان طبیعی اعم از ترجمه زبانی، تولید متن و تجزیه و تحلیل احساسات داشته‌اند.

\subsection{تاریخچه LLMs}
اولین مدل‌های زبان بزرگ در دهه‌های ۱۹۸۰ و ۱۹۹۰ توسعه یافتند، اما محدودیت‌هایی از جمله مقدار داده‌ای که می‌توانست پردازش کند و قدرت محاسباتی موجود در آن زمان را داشتند. اما در دهه گذشته، پیشرفت‌هایی در سخت‌افزار و نرم‌افزار آن امکان آموزش مدل‌های زبان بزرگ بر روی مجموعه داده‌های بزرگ را فراهم کرده و منجر به بهبود‌های قابل توجه در عملکرد شده‌است.

\subsection{کاربردهای LLMs}
مدل‌های زبان بزرگ کاربردهای زیادی در صنعت دارند اعم از چت‌بات‌ها، ایجاد محتوا و دستیاران مجازی. آن‌ها همچنین می‌توانند در دانشگاه برای تحقیقات در زبان‌شناسی، روان‌شناسی و زبان‌شناسی محاسباتی استفاده شوند.

\end{document}
"""

HTML

html_text = """
<!DOCTYPE html>
<html>
    <head>
        <title>🌐 LangChain</title>
        <style>
            body {
                font-family: Arial, sans-serif;
            }
            h1 {
                color: darkblue;
            }
        </style>
    </head>
    <body>
        <div>
            <h1>🌐 LangChain</h1>
            <p>⚡ ایجاد برنامه های کاربردی با LLMs از طریق ترکیب\u200cپذیری ⚡</p>
        </div>
        <div>
            به عنوان یک پروژه منبع باز در یک حوزه به سرعت در حال توسعه، ما به شدت باز هستیم به مشارکت های دیگران.
        </div>
    </body>
</html>
"""

html_splitter = RecursiveCharacterTextSplitter.from_language(
    language=زبان.HTML, chunk_size=60, chunk_overlap=0
)
html_docs = html_splitter.create_documents([html_text])
html_docs

[Document(page_content='<!DOCTYPE html>\n<html>', metadata={}),
     Document(page_content='<head>\n        <title>🌐 LangChain</title>', metadata={}),
     Document(page_content='<style>\n            body {\n                font-family: Arial', metadata={}),
     Document(page_content=', sans-serif;\n            }\n            h1 {', metadata={}),
     Document(page_content='color: darkblue;\n            }\n        </style>\n    </head', metadata={}),
     Document(page_content='>', metadata={}),
     Document(page_content='<body>', metadata={}),
     Document(page_content='<div>\n            <h1>🌐 LangChain</h1>', metadata={}),
     Document(page_content='<p>⚡ ایجاد برنامه های کاربردی با LLMs از طریق ترکیب\u200cپذیری ⚡', metadata={}),
     Document(page_content='</p>\n        </div>', metadata={}),
     Document(page_content='<div>\n            به عنوان یک پروژه منبع باز در یک حوزه به سرعت در حال توسعه، م', metadata={}),
     Document(page_content='ا به شدت باز هستیم به مشارکت های دیگران.', metadata={}),
     Document(page_content='</div>\n    </body>\n</html>', metadata={})]

Solidity

SOL_CODE = """
pragma solidity ^0.8.20;
contract HelloWorld {
   function add(uint a, uint b) pure public returns(uint) {
       return a + b;
   }
}
"""

sol_splitter = RecursiveCharacterTextSplitter.from_language(
    language=زبان.SOL, chunk_size=128, chunk_overlap=0
)
sol_docs = sol_splitter.create_documents([SOL_CODE])
sol_docs

[
    Document(page_content='pragma solidity ^0.8.20;', metadata={}),
    Document(page_content='contract HelloWorld {\n   function add(uint a, uint b) pure public returns(uint) {\n       return a + b;\n   }\n}', metadata={})
]