فائلوں کا ہینڈل کریں
علاوہ از رو کھردار ڈیٹا، آپ دوسرے فائل کی اقسام سے معلومات استخراج کرنا چاہیں گے، جیسے پاورپوائنٹ پریزنٹیشن یا پی ڈی ایف فائل۔
آپ لینگ چین ڈاکومنٹ لوڈرز کا استعمال کرکے فائلوں کو متن فارمیٹ میں تبدیل کرسکتے ہیں جو ایل ایل ایمز کو فراہم کیا جا سکتا ہے۔
MIME ٹائپ کے اساس پر پارسنگ
یہاں، ہم MIME ٹائپ کے اساس پر پارسنگ پر نظر ڈالیں گے جو عموماً استخراج کے اطلاقات کے لئے مفید ہوتا ہے اگر آپ صارف کی اپ لوڈ ہوئی فائل منظور کرنے والا سرور کو لکھ رہے ہیں۔
اس مقام پر، بہتر ہوتا ہے کہ فرض کیا جائے کہ صارف کی فراہم کردہ فائل کا فائل کا توسیع غلط ہے اور بجائے اس کے کہ فائل کو بائنری مواد سے mime-ٹائپ حاصل کیا جائے۔
ہم کچھ مواد ڈاؤن لوڈ کریں گے۔ یہ ایک ایچ ٹی ایم ایل فائل ہو گا، لیکن نیچے دی گئی کوڈ دوسرے فائل اقسام کے ساتھ کام کرے گا۔
اندرونی درخواستات
پاس خود حاصلی = درخواستات.حاصل_کرو("https://en.wikipedia.org/wiki/Car")
مواد = پاس_خود_حاصلی.مواد
مواد[:20]
b'<!DOCTYPE html>\n<htm'
پارسرز کو ترتیب دینا
جادو = جادو.Magic(mime=True)
mime_type = جادو.from_buffer(data)
blob = Blob.from_data(
data=data,
mime_type=mime_type,
)
پارسر = HANDLERS[mime_type]
دستاویزات = پارسر.parse(blob=blob)
print(documents[0].page_content[:30].strip())
گاڑی - ویکیپیڈیا