» هوش مصنوعی » مدل Hagging Face Falcon-7B Large Language
هوش مصنوعی

مدل Hagging Face Falcon-7B Large Language

دی 11, 1348 1043

یک مدل زبان بزرگ جدید (LLM) به نام Falcon-7B با استفاده از مجموعه داده آموزشی متن و کد قابل توجهی توسعه داده شد. یکی از بزرگترین LLM هایی که تا کنون ساخته شده است، دارای 7 میلیارد پارامتر است. Falcon-7B قادر به انجام طیف وسیعی از مشاغل، مانند ایجاد متن، ترجمه زبان، ایجاد انواع دیگر محتوای خلاقانه، و ارائه پاسخ های مفید به سوالات شما است.

Falcon-7B چیست

مدل Falcon-7B که توسط TII توسعه داده شده است، یک مدل تنها رمزگشای علتی با 7 میلیارد پارامتر است که بر روی 1500 میلیارد توکن RefinedWeb که با مجموعه‌های منتخب تکمیل شده بود، آموزش داده شده است. تحت شرایط مجوز آپاچی 2.0 توزیع شده است. Falcon-7B ابزاری قدرتمند است که ممکن است برای طیف وسیعی از فعالیت‌ها، از جمله نوشتن خلاق، ترجمه ماشینی، و پردازش زبان طبیعی استفاده شود.

Falcon-7B

چرا از Falcon-7B استفاده کنید

مدلی به نام Falcon-7B ادعا می‌شود که عملکرد بهتری نسبت به مدل‌های منبع باز مرتبط مانند MPT-7B، StableLM، و RedPajama دارد. این با استفاده از مقدار قابل توجهی از داده ها، یعنی 1500 میلیارد توکن از RefinedWeb که توسط شرکت های سرپرست بهبود یافته بود، آموزش داده شد. استفاده از چنین مجموعه داده عظیم و متنوعی می تواند عاملی در بهبود عملکرد باشد.

معماری Falcon-7B برای استنتاج بهبود یافته است. از تکنیک چند پرس و جوی معرفی شده توسط Shazeer و همکاران استفاده می کند. در سال 2019 و تکنیک FlashAttention که توسط دائو و همکاران معرفی شد. در سال 2022. این بهبودها برای بهبود ظرفیت مدل برای پردازش پرس و جو و پاسخ در نظر گرفته شده است.

صدور مجوز Falcon-7B یکی از ویژگی های قابل توجه است. این تحت مجوز منبع باز Apache 2.0 در دسترس است، که هیچ هزینه یا محدودیتی برای استفاده تجاری اعمال نمی کند. کسانی که مایل به استفاده از مدل برای برنامه های تجاری هستند، ممکن است انعطاف پذیری مجوز را مفید بدانند.

مهم است که به خاطر داشته باشید که Falcon-7B به عنوان یک مدل خام و از پیش آموزش دیده نامیده می شود. این نشان می دهد که تنظیم دقیق اضافی اغلب برای مطابقت با سناریوهای استفاده خاص مورد نیاز است. اگر به نسخه‌ای از مدلی نیاز دارید که برای دریافت دستورالعمل‌های کلی در سبک چت مناسب‌تر باشد، پیشنهاد می‌شود که Falcon-7B-Instruct را بررسی کنید.

استفاده از Falcon-7B

اشاره به Falcon-40B به عنوان برادر بزرگ Falcon-7B، دلالت بر وجود نوع قوی‌تری دارد.

از ترانسفورماتورها AutoTokenizer، AutoModelForCausalLM را وارد می کنند
واردات ترانسفورماتور
مشعل وارداتی

model = "tiiuae/falcon-7b"

tokenizer = AutoTokenizer.from_pretrained(model)
خط لوله = transformers.pipeline(
    "نسل متن"،
    مدل=مدل،
    توکن ساز = توکن ساز،
    torch_dtype=torch.bfloat16،
    trust_remote_code=درست است،
    device_map="auto",
)
توالی = خط لوله (
   "ژیرافترون شیفته زرافه ها، باشکوه ترین حیوان روی زمین است. ژیرافترون معتقد است که همه حیوانات دیگر در مقایسه با عظمت شکوهمند زرافه بی ربط هستند.nدانیل: سلام، زرافه ترون!nGirafatron:"
    max_length=200،
    do_sample=درست است،
    top_k=10،
    num_return_sequences=1،
    eos_token_id=tokenizer.eos_token_id،
)
برای دنباله به ترتیب:
    print(f"نتیجه: {seq['generated_text']}")

مورد استفاده

  1. استفاده مستقیم:
  • تحقیق: Falcon-7B با مبنایی برای سفارشی‌سازی و تنظیم دقیق برای موارد استفاده خاص مانند خلاصه‌سازی، تولید متن، و توسعه ربات‌های گفتگو، برای تحقیق روی مدل‌های زبان بزرگ مناسب است.
  1. استفاده خارج از محدوده:
  • کاربرد تولید: استفاده از Falcon-7B در تولید بدون ارزیابی صحیح خطرات و انجام اقدامات احتیاطی توصیه نمی شود.
  • استفاده غیرمسئولانه یا مضر: از هر گونه استفاده ای که می تواند به عنوان بی پروا یا بالقوه مخرب تلقی شود خودداری کنید.
  1. سوگیری، خطرات و محدودیت ها:
  • محدودیت زبان: Falcon-7B ممکن است به زبان های دیگر به خوبی ترجمه نشود زیرا بر روی داده ها به زبان های انگلیسی و فرانسوی آموزش دیده است.
  • سوگیری آنلاین: از آنجایی که Falcon-7B با استفاده از یک مجموعه وب قابل توجه توسعه داده شده است، ممکن است دارای تعصبات و کلیشه هایی باشد که اغلب به صورت آنلاین دیده می شوند.
  1. توصیه ها:
  • تنظیم دقیق: Falcon-7B باید توسط کاربران برای وظایف منحصر به فرد مورد علاقه خود تنظیم شود تا عملکرد را بهبود بخشد و آن را در دامنه یا مجموعه داده خود سفارشی کند.
  • ارزیابی خطر: قبل از اجرای Falcon-7B در تولید، خطرات باید به اندازه کافی ارزیابی شوند و آسیب های احتمالی باید به دقت در نظر گرفته شود.
  • حفاظ‌ها و اقدامات احتیاطی: برای اینکه Falcon-7B در برنامه‌های واقعی به‌طور مسئولانه و اخلاقی استفاده شود، نرده‌های محافظ مناسب باید در جای خود قرار داده شوند و اقدامات ایمنی لازم انجام شود.

نحوه شروع کار با مدل

از ترانسفورماتورها AutoTokenizer، AutoModelForCausalLM را وارد می کنند
واردات ترانسفورماتور
مشعل وارداتی

model = "tiiuae/falcon-7b"

tokenizer = AutoTokenizer.from_pretrained(model)
خط لوله = transformers.pipeline(
    "تولید متن"،
    مدل=مدل،
    توکن ساز = توکن ساز،
    torch_dtype=torch.bfloat16،
    trust_remote_code=درست است،
    device_map="auto",
)
توالی = خط لوله (
   "ژیرافترون شیفته زرافه ها، باشکوه ترین حیوان روی زمین است. ژیرافترون معتقد است که همه حیوانات دیگر در مقایسه با عظمت شکوهمند زرافه بی ربط هستند.nدانیل: سلام، زرافه ترون!nGirafatron:"
    max_length=200،
    do_sample=درست است،
    top_k=10،
    num_return_sequences=1،
    eos_token_id=tokenizer.eos_token_id،
)
برای دنباله به ترتیب:
    print(f"نتیجه: {seq['generated_text']}")

جزئیات آموزش

  1. داده های آموزشی
    • RefinedWeb: برای استفاده مسئولانه و اخلاقی از Falcon-7B در برنامه های واقعی، نرده های محافظ مناسب باید در جای خود قرار داده شوند و اقدامات ایمنی لازم انجام شود.
    • افزایش Corpora Curated: مجموعه‌های انتخاب‌شده یا داده‌های اضافی که با دقت انتخاب و مدیریت شده‌اند، برای بهبود آن به مجموعه داده RefinedWeb اضافه شدند.
    • الهام از The Pile: The Pile، مجموعه داده ارائه شده توسط Gao و همکاران. در سال 2020، به عنوان منبع مهمی از الهام بخش‌های قابل توجهی از مجموعه‌های سرپرستی مورد استفاده در آموزش Falcon-7B بود.

RefinedWeb-English

جزئیات آموزش

  1. رویه آموزشی

با استفاده از ZeRO و تکنیک موازی دوبعدی (PP=2، DP=192)، Falcon 7B بر روی 384 پردازنده گرافیکی 40 گیگابایتی A100 آموزش دید.

  1. هایپرپارامترهای آموزشی
منبع داده کسری Tokens منابع
79% 1,185 میلیارد 110B
مکالمات 6% 85B Reddit، StackOverflow، HackerNews
کد 3% 3% b-فرانسوی 3% 45B خزیدن گسترده وب
فنی 2% 30B arXiv، PubMed،

هیپرپارامتر مقدار نظر
Precision Precision
بهینه ساز AdamW
نرخ یادگیری 6e-4 4B توکن گرم کردن، کاهش کسینوس به 1.2e-5
Z-loss 1e-4
اندازه دسته 2304 30 میلیارد توکن افزایش می یابد
  • سرعت، اندازه، زمان
  • اوایل مارس 2023 شاهد شروع تمرین بودیم که تقریباً دو هفته به طول انجامید.

    مشخصات فنی Falcon-7B

    معماری مدل:

    • یک مدل فقط رمزگشای علی، Falcon 7B است.
    • مدل GPT-3 (ترانسفورماتور پیش‌آموزش‌دهی ژنراتور 3) که در مقاله 2020 توسط براون و همکاران ارائه شده است. به عنوان پایه و اساس معماری عمل کرد.

    هدف آموزشی:

    • چالش مدل‌سازی زبان علّی که Falcon 7B در مورد آن آموزش دیده است شامل پیش‌بینی نشانه بعدی در یک دنباله با توجه به زمینه قبلی آن است.

    بهبودهای معماری:

    • جاسازی‌های موقعیتی: فالکون 7B از تعبیه‌های موقعیتی چرخشی استفاده می‌کند که سو و همکارانش. برای اولین بار در سال 2021 پیشنهاد شد. موقعیت های نسبی نشانه ها در دنباله ورودی بهتر توسط این جاسازی ها ثبت می شود.
    • مکانیسم توجه: دو روش برای بهبود مکانیسم توجه Falcon 7B استفاده می شود. از FlashAttention (طراحی شده توسط دائو و همکاران در سال 2022) و توجه چند پرسشی (معرفی شده توسط Shazeer و همکاران در سال 2019) استفاده می کند. این بهبودهای تمرکز، مدل را در پاسخگویی به سؤالات بهتر می کند.
    • Decoder-Block: بلوک رمزگشا Falcon 7B از توجه/MLP موازی با نرمال سازی یک لایه استفاده می کند. از طریق استفاده از این پیکربندی، این مدل می‌تواند وابستگی‌ها را به‌طور مؤثر ثبت کند و محاسبات را انجام دهد.
    هیپرپارامتر مقدار نظر
    لایه‌ها >d_model 4544 افزایش یافته برای جبران چندپرسش
    head_dim 64 64 کاهش یافته است6tdbularyd/td 024
    طول دنباله 2048
    بهبودهای معماری

    همچنین بخوانید: نحوه نصب iPhoneS 17 Stepby A:P Guapide در iOS 17 بتا>

    جزئیات مدل

    • توسعه یافته توسط: TII (موسسه نوآوری فناوری) مدل را ایجاد کرد. وب‌سایت آنها https://www.tii.ae است، که می‌توانید در مورد آنها اطلاعات بیشتری کسب کنید.
    • نوع مدل: مدلی که فقط رمزگشای علی دارد Falcon 7B است. این نشان می دهد که قرار است متنی در پاسخ به یک ورودی یا درخواست تولید شود.
    • زبان(ها): فعالیت های پردازش زبان فرانسوی و انگلیسی توسط Falcon-7B پشتیبانی می شود. قادر به درک هر دو زبان و تولید متن در آنها است.
    • مجوز: مجوز Apache 2.0 بر توزیع Falcon 7B نظارت دارد. استفاده تجاری تحت این مجوز مجاز بدون هیچ گونه محدودیت یا حق امتیاز مجاز است. برای اطلاعات بیشتر در مورد کاربردهای مجاز، لطفاً مجوز Apache 2.0 را به طور کامل ببینید.

    این مقاله به شما کمک می کند تا در مورد Falcon-7B بیاموزید. ما اطمینان داریم که برای شما مفید بوده است. لطفاً نظرات و بازخورد خود را در بخش نظرات زیر به اشتراک بگذارید.

    به این نوشته امتیاز بدهید!

    افراد نیوز

    افراد نیوز

    دیدگاهتان را بنویسید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×