مدل Hagging Face Falcon-7B Large Language
یک مدل زبان بزرگ جدید (LLM) به نام Falcon-7B با استفاده از مجموعه داده آموزشی متن و کد قابل توجهی توسعه داده شد. یکی از بزرگترین LLM هایی که تا کنون ساخته شده است، دارای 7 میلیارد پارامتر است. Falcon-7B قادر به انجام طیف وسیعی از مشاغل، مانند ایجاد متن، ترجمه زبان، ایجاد انواع دیگر محتوای خلاقانه، و ارائه پاسخ های مفید به سوالات شما است.
Falcon-7B چیست
مدل Falcon-7B که توسط TII توسعه داده شده است، یک مدل تنها رمزگشای علتی با 7 میلیارد پارامتر است که بر روی 1500 میلیارد توکن RefinedWeb که با مجموعههای منتخب تکمیل شده بود، آموزش داده شده است. تحت شرایط مجوز آپاچی 2.0 توزیع شده است. Falcon-7B ابزاری قدرتمند است که ممکن است برای طیف وسیعی از فعالیتها، از جمله نوشتن خلاق، ترجمه ماشینی، و پردازش زبان طبیعی استفاده شود.

چرا از Falcon-7B استفاده کنید
مدلی به نام Falcon-7B ادعا میشود که عملکرد بهتری نسبت به مدلهای منبع باز مرتبط مانند MPT-7B، StableLM، و RedPajama دارد. این با استفاده از مقدار قابل توجهی از داده ها، یعنی 1500 میلیارد توکن از RefinedWeb که توسط شرکت های سرپرست بهبود یافته بود، آموزش داده شد. استفاده از چنین مجموعه داده عظیم و متنوعی می تواند عاملی در بهبود عملکرد باشد.
معماری Falcon-7B برای استنتاج بهبود یافته است. از تکنیک چند پرس و جوی معرفی شده توسط Shazeer و همکاران استفاده می کند. در سال 2019 و تکنیک FlashAttention که توسط دائو و همکاران معرفی شد. در سال 2022. این بهبودها برای بهبود ظرفیت مدل برای پردازش پرس و جو و پاسخ در نظر گرفته شده است.
صدور مجوز Falcon-7B یکی از ویژگی های قابل توجه است. این تحت مجوز منبع باز Apache 2.0 در دسترس است، که هیچ هزینه یا محدودیتی برای استفاده تجاری اعمال نمی کند. کسانی که مایل به استفاده از مدل برای برنامه های تجاری هستند، ممکن است انعطاف پذیری مجوز را مفید بدانند.
مهم است که به خاطر داشته باشید که Falcon-7B به عنوان یک مدل خام و از پیش آموزش دیده نامیده می شود. این نشان می دهد که تنظیم دقیق اضافی اغلب برای مطابقت با سناریوهای استفاده خاص مورد نیاز است. اگر به نسخهای از مدلی نیاز دارید که برای دریافت دستورالعملهای کلی در سبک چت مناسبتر باشد، پیشنهاد میشود که Falcon-7B-Instruct را بررسی کنید.
استفاده از Falcon-7B
اشاره به Falcon-40B به عنوان برادر بزرگ Falcon-7B، دلالت بر وجود نوع قویتری دارد.
از ترانسفورماتورها AutoTokenizer، AutoModelForCausalLM را وارد می کنند
واردات ترانسفورماتور
مشعل وارداتی
model = "tiiuae/falcon-7b"
tokenizer = AutoTokenizer.from_pretrained(model)
خط لوله = transformers.pipeline(
"نسل متن"،
مدل=مدل،
توکن ساز = توکن ساز،
torch_dtype=torch.bfloat16،
trust_remote_code=درست است،
device_map="auto",
)
توالی = خط لوله (
"ژیرافترون شیفته زرافه ها، باشکوه ترین حیوان روی زمین است. ژیرافترون معتقد است که همه حیوانات دیگر در مقایسه با عظمت شکوهمند زرافه بی ربط هستند.nدانیل: سلام، زرافه ترون!nGirafatron:"
max_length=200،
do_sample=درست است،
top_k=10،
num_return_sequences=1،
eos_token_id=tokenizer.eos_token_id،
)
برای دنباله به ترتیب:
print(f"نتیجه: {seq['generated_text']}")
مورد استفاده
- استفاده مستقیم:
- تحقیق: Falcon-7B با مبنایی برای سفارشیسازی و تنظیم دقیق برای موارد استفاده خاص مانند خلاصهسازی، تولید متن، و توسعه رباتهای گفتگو، برای تحقیق روی مدلهای زبان بزرگ مناسب است.
- استفاده خارج از محدوده:
- کاربرد تولید: استفاده از Falcon-7B در تولید بدون ارزیابی صحیح خطرات و انجام اقدامات احتیاطی توصیه نمی شود.
- استفاده غیرمسئولانه یا مضر: از هر گونه استفاده ای که می تواند به عنوان بی پروا یا بالقوه مخرب تلقی شود خودداری کنید.
- سوگیری، خطرات و محدودیت ها:
- محدودیت زبان: Falcon-7B ممکن است به زبان های دیگر به خوبی ترجمه نشود زیرا بر روی داده ها به زبان های انگلیسی و فرانسوی آموزش دیده است.
- سوگیری آنلاین: از آنجایی که Falcon-7B با استفاده از یک مجموعه وب قابل توجه توسعه داده شده است، ممکن است دارای تعصبات و کلیشه هایی باشد که اغلب به صورت آنلاین دیده می شوند.
- توصیه ها:
- تنظیم دقیق: Falcon-7B باید توسط کاربران برای وظایف منحصر به فرد مورد علاقه خود تنظیم شود تا عملکرد را بهبود بخشد و آن را در دامنه یا مجموعه داده خود سفارشی کند.
- ارزیابی خطر: قبل از اجرای Falcon-7B در تولید، خطرات باید به اندازه کافی ارزیابی شوند و آسیب های احتمالی باید به دقت در نظر گرفته شود.
- حفاظها و اقدامات احتیاطی: برای اینکه Falcon-7B در برنامههای واقعی بهطور مسئولانه و اخلاقی استفاده شود، نردههای محافظ مناسب باید در جای خود قرار داده شوند و اقدامات ایمنی لازم انجام شود.
نحوه شروع کار با مدل
از ترانسفورماتورها AutoTokenizer، AutoModelForCausalLM را وارد می کنند
واردات ترانسفورماتور
مشعل وارداتی
model = "tiiuae/falcon-7b"
tokenizer = AutoTokenizer.from_pretrained(model)
خط لوله = transformers.pipeline(
"تولید متن"،
مدل=مدل،
توکن ساز = توکن ساز،
torch_dtype=torch.bfloat16،
trust_remote_code=درست است،
device_map="auto",
)
توالی = خط لوله (
"ژیرافترون شیفته زرافه ها، باشکوه ترین حیوان روی زمین است. ژیرافترون معتقد است که همه حیوانات دیگر در مقایسه با عظمت شکوهمند زرافه بی ربط هستند.nدانیل: سلام، زرافه ترون!nGirafatron:"
max_length=200،
do_sample=درست است،
top_k=10،
num_return_sequences=1،
eos_token_id=tokenizer.eos_token_id،
)
برای دنباله به ترتیب:
print(f"نتیجه: {seq['generated_text']}")
جزئیات آموزش
- داده های آموزشی
- RefinedWeb: برای استفاده مسئولانه و اخلاقی از Falcon-7B در برنامه های واقعی، نرده های محافظ مناسب باید در جای خود قرار داده شوند و اقدامات ایمنی لازم انجام شود.
- افزایش Corpora Curated: مجموعههای انتخابشده یا دادههای اضافی که با دقت انتخاب و مدیریت شدهاند، برای بهبود آن به مجموعه داده RefinedWeb اضافه شدند.
- الهام از The Pile: The Pile، مجموعه داده ارائه شده توسط Gao و همکاران. در سال 2020، به عنوان منبع مهمی از الهام بخشهای قابل توجهی از مجموعههای سرپرستی مورد استفاده در آموزش Falcon-7B بود.
منبع داده | کسری | Tokens | منابع | 79% | 1,185 میلیارد | |||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
مکالمات | 6% | 85B | Reddit، StackOverflow، HackerNews | |||||||||||||||||||||||||||||||||||
کد | 3% | 3% | b-فرانسوی | 3% | 45B | خزیدن گسترده وب | ||||||||||||||||||||||||||||||||
فنی | 2% | 30B | arXiv، PubMed، |
هیپرپارامتر | مقدار | نظر |
---|---|---|
Precision | Precision | |
بهینه ساز | AdamW | |
نرخ یادگیری | 6e-4 | 4B توکن گرم کردن، کاهش کسینوس به 1.2e-5 |
Z-loss | 1e-4 | |
اندازه دسته | 2304 | 30 میلیارد توکن افزایش می یابد |
اوایل مارس 2023 شاهد شروع تمرین بودیم که تقریباً دو هفته به طول انجامید.
مشخصات فنی Falcon-7B
معماری مدل:
- یک مدل فقط رمزگشای علی، Falcon 7B است.
- مدل GPT-3 (ترانسفورماتور پیشآموزشدهی ژنراتور 3) که در مقاله 2020 توسط براون و همکاران ارائه شده است. به عنوان پایه و اساس معماری عمل کرد.
هدف آموزشی:
- چالش مدلسازی زبان علّی که Falcon 7B در مورد آن آموزش دیده است شامل پیشبینی نشانه بعدی در یک دنباله با توجه به زمینه قبلی آن است.
بهبودهای معماری:
- جاسازیهای موقعیتی: فالکون 7B از تعبیههای موقعیتی چرخشی استفاده میکند که سو و همکارانش. برای اولین بار در سال 2021 پیشنهاد شد. موقعیت های نسبی نشانه ها در دنباله ورودی بهتر توسط این جاسازی ها ثبت می شود.
- مکانیسم توجه: دو روش برای بهبود مکانیسم توجه Falcon 7B استفاده می شود. از FlashAttention (طراحی شده توسط دائو و همکاران در سال 2022) و توجه چند پرسشی (معرفی شده توسط Shazeer و همکاران در سال 2019) استفاده می کند. این بهبودهای تمرکز، مدل را در پاسخگویی به سؤالات بهتر می کند.
- Decoder-Block: بلوک رمزگشا Falcon 7B از توجه/MLP موازی با نرمال سازی یک لایه استفاده می کند. از طریق استفاده از این پیکربندی، این مدل میتواند وابستگیها را بهطور مؤثر ثبت کند و محاسبات را انجام دهد.
هیپرپارامتر | مقدار | نظر | ||
---|---|---|---|---|
لایهها >d_model |
4544 | افزایش یافته برای جبران چندپرسش | ||
head_dim |
64 | 64 | کاهش یافته است6tdbularyd/td 024 | |
طول دنباله | 2048 |
همچنین بخوانید: نحوه نصب iPhoneS 17 Stepby A:P Guapide در iOS 17 بتا>
جزئیات مدل
- توسعه یافته توسط: TII (موسسه نوآوری فناوری) مدل را ایجاد کرد. وبسایت آنها https://www.tii.ae است، که میتوانید در مورد آنها اطلاعات بیشتری کسب کنید.
- نوع مدل: مدلی که فقط رمزگشای علی دارد Falcon 7B است. این نشان می دهد که قرار است متنی در پاسخ به یک ورودی یا درخواست تولید شود.
- زبان(ها): فعالیت های پردازش زبان فرانسوی و انگلیسی توسط Falcon-7B پشتیبانی می شود. قادر به درک هر دو زبان و تولید متن در آنها است.
- مجوز: مجوز Apache 2.0 بر توزیع Falcon 7B نظارت دارد. استفاده تجاری تحت این مجوز مجاز بدون هیچ گونه محدودیت یا حق امتیاز مجاز است. برای اطلاعات بیشتر در مورد کاربردهای مجاز، لطفاً مجوز Apache 2.0 را به طور کامل ببینید.
این مقاله به شما کمک می کند تا در مورد Falcon-7B بیاموزید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و بازخورد خود را در بخش نظرات زیر به اشتراک بگذارید.