» هوش مصنوعی » مدل LLaMA: استفاده از مدل زبان بزرگ متا هوش مصنوعی
هوش مصنوعی

مدل LLaMA: استفاده از مدل زبان بزرگ متا هوش مصنوعی

دی 11, 1348 1074

LLaMA Meta AI (Huge Language Model Meta AI) یک مدل زبان بزرگ است که در فوریه 2023 راه اندازی شد. اندازه مدل از 7 میلیارد تا 65 میلیارد پارامتر آموزش داده شد. توسعه دهندگان LLaMA نشان دادند که مدل 13 میلیارد پارامتر نسبت به GPT-3 بسیار بزرگتر (با 175 میلیارد پارامتر) در اکثر معیارهای NLP عملکرد بهتری داشت، و اینکه بزرگترین مدل با مدل های پیشرفته مانند PaLM و چینچیلا.

LLaMA یک مدل زبان مبتنی بر ترانسفورماتور است که به این معنی است که دارای یک معماری شبکه عصبی است که برای ترجمه ماشینی طراحی شده است. ترانسفورماتورها می توانند وابستگی های طولانی مدت کلمات را بیاموزند و آنها را برای مشاغلی مانند پردازش و تولید زبان طبیعی مناسب می کند.

نکات: برای دریافت وزن مدل‌های LLaMA، این فرم را پر کنید.

پس از به دست آوردن وزن‌ها، باید آنها را به چهره در آغوش قالب ترانسفورماتور با استفاده از اسکریپت تبدیل. اسکریپت را می توان با استفاده از دستور (مثال) زیر فراخوانی کرد:

python src/transformers/models/llama/convert_llama_weights_to_hf.py 
    --input_dir /path/to/downloaded/llama/weights --model_size 7B --output_dir /output/path

پس از تبدیل، مدل و نشانه‌ساز را می‌توان با استفاده از:

بارگیری کرد

از ترانسفورماتورها LlamaForCausalLM، LlamaTokenizer را وارد کنید

tokenizer = LlamaTokenizer.from_pretrained("/output/path")
model = LlamaForCausalLM.from_pretrained("/output/path")

لازم به ذکر است که اجرای اسکریپت به مقدار کافی رم CPU نیاز دارد تا کل مدل را با دقت float16 میزبانی کند (حتی اگر بزرگترین نسخه ها در نقاط بازرسی متعددی وارد شوند، هر کدام بخشی از وزن مدل را نگه می دارند، بنابراین باید همه آنها را در RAM بارگذاری کنیم). بنابراین، 130 گیگابایت رم برای مدل 65B مورد نیاز است.

توکنایزر LLaMA یک مدل BPE قطعه جمله است. هنگام رمزگشایی یک دنباله، اگر اولین نشانه شروع کلمه را نشان دهد (مثلاً “Banana”) توکنایزر فضای پیشوند را به رشته اضافه نمی کند.

مدل LLaMA

ترانسفورماتورهای کلاس.LlamaModel
( پیکربندی: LlamaConfig )

پارامترهای مدل LLaMA

config (LlaMAConfig) – کلاس پیکربندی مدل شامل تمام پارامترهای مدل است. هنگام شروع با یک فایل پیکربندی، فقط پیکربندی بارگذاری می شود، نه وزن های مرتبط با مدل. برای بارگذاری وزن های مدل، از متد from_pretrained() استفاده کنید. پیکربندی – LlaMAConfig

مدل LlaMA برهنه، که حالت‌های پنهان خام را بدون سر خاصی در بالا ایجاد می‌کند. این مدل از PreTrainedModel نشات گرفته است. مستندات superclass را برای روش‌های عمومی پیاده‌سازی شده توسط کتابخانه برای همه مدل‌های آن (مانند دانلود یا ذخیره، مقیاس‌گذاری تعبیه‌های ورودی، سرهای هرس و غیره) بررسی کنید.

این مدل همچنین زیر کلاس PyTorch torch.nn.Module است. از آن به عنوان یک ماژول معمولی PyTorch استفاده کنید و برای تمام سوالات اساسی استفاده و رفتار به اسناد PyTorch مراجعه کنید.

رمزگشای ترانسفورماتور لایه ای با لایه های config.num_hidden_layers. LlaMADecoderLayer برای هر لایه استفاده می شود.

به جلو

(input_ids: LongTensor = Noneattention_mask: typing.Optional[torch.Tensor] = Noneposition_ids: typing.Optional[torch.LongTensor] = Nonepast_key_values: typing.Optional[typing.List[torch.FloatTensor:Sorch. ] = Noneuse_cache: typing.Optional[bool] = Noneoutput_attentions: typing.Optional[bool] = Noneoutput_hidden_states: typing.Optional[bool] = Nonereturn_dict: typing.Optional[bool] = هیچکدام)

پارامترهای پیکربندی LLaMA

input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — شناسه های رمز برای دنباله های ورودی در واژگان. padding، در صورت ارائه، به طور پیش فرض نادیده گرفته می شود.

attention_mask (مشعل. تانسور شکل (بچ_اندازه، توالی_طول)، اختیاری) — برای جلوگیری از توجه به شاخص‌های نشانه، از ماسک استفاده کنید. مقادیر ماسک در محدوده [0، 1]:

اگر past_key_values ​​استفاده می شود، فقط آخرین decoder_input_ids باید وارد شود (به past_key_values ​​مراجعه کنید).

اگر می‌خواهید رفتار padding را تغییر دهید، modeling_opt._prepare_decoder_attention_mask را بخوانید و تغییرات لازم را انجام دهید.

  • 1 نشان می دهد که سر پوشیده نیست.
  • 0 نشان دهنده این است که سر پوشیده شده است.

Position_ids (torch.LongTensor شکل (batch_size, sequence_length)، اختیاری) – شاخص‌های موقعیت هر نشانه توالی ورودی در جاسازی‌های موقعیت. مقدار [0, config.n_positions – 1] انتخاب شد.

past_key_values (tuple(tuple(torch.FloatTensor))، اختیاری، پس از ارسال use_cache=True یا زمانی که config.use_cache=True-true (Tuple.use_cache=True) طول می‌کشد، برگردانده می‌شود. fig.n_layers، با هر تاپل شامل دو تانسور شکل (بچ_اندازه، تعداد_هد، طول_توالی، اندازه_جاسازی_در_هر_هد) و دو تانسور شکل اضافی (بچ_اندازه، عدد_هد، طول_ encoder_sequence، embed_size_per_head).>

حاوی حالت های پنهان از پیش محاسبه شده (کلید و مقادیر در بلوک های توجه به خود و توجه متقابل) است که می تواند برای سرعت بخشیدن به رمزگشایی متوالی استفاده شود (به ورودی past_key_values ​​مراجعه کنید).

اگر past_key_values ​​استفاده می‌شود، کاربر می‌تواند ورودی‌های آخرین decoder_input_ids شکل (batch_size, 1) (آنهایی که حالت‌های مقدار کلید گذشته آنها به این مدل داده نشده است) را به جای همه decoder_input_ids شکل (batch_size، sequence_length) انتخاب کند.

inputs_embeds (torch.FloatTensor شکل (batch_size، sequence_length، hidden_size)، اختیاری) - به جای دادن input_ids، می توانید مستقیماً یک شناسه ورودی را نیز ارسال کنید. اگر می‌خواهید کنترل بیشتری بر نحوه تبدیل شاخص‌های input_ids به بردارهای مرتبط نسبت به ماتریس جستجوی جاسازی داخلی مدل، کنترل بیشتری داشته باشید.

use_cache (bool، اختیاری) — در صورت True، مقادیر کلیدی حالت‌های گذشته برگردانده می‌شوند و می‌توانند برای سرعت بخشیدن به رمزگشایی استفاده شوند (به past_key_values ​​مراجعه کنید).

output_attentions (bool، اختیاری) - اینکه آیا تانسورهای توجه همه لایه‌های توجه برمی‌گردد یا خیر. برای اطلاعات بیشتر، توجهات زیر تانسورهای برگشتی را ببینید.

output_hidden_states (bool، اختیاری) — اینکه آیا همه حالت‌های پنهان همه لایه‌ها برمی‌گردند یا نه. برای اطلاعات بیشتر، hidden_states زیر تانسورهای برگشتی را ببینید.

return_dict (bool، اختیاری) — آیا به جای یک تاپل ساده، خروجی مدل برگردانده شود یا نه.

عملکرد ویژه __call__ توسط روش پیش رو مدل LlaMA لغو می شود.

همچنین بخوانید: برای مروری جامع‌تر از گوریل به راهنمای ما مراجعه کنید  LLM با APIها مرتبط است

سؤالات متداول مدل LLaMA

مدل LLaMA دقیقاً چیست؟

مدل LlaMA یک مدل یادگیری ماشینی مبتنی بر زبان پیچیده است که برای استفاده از قدرت زبان برای طیف وسیعی از کاربردهای ماشینی طراحی شده است. از تکنیک های پیشرفته برای بهبود پردازش، درک و تولید زبان طبیعی استفاده می کند.

چگونه مدل LLaMA یادگیری ماشینی را متحول می کند؟

مدل LlaMA با استفاده از قدرت های زبان، یادگیری ماشین را تغییر می دهد. این به ربات‌ها اجازه می‌دهد تا زبانی شبیه به انسان را درک کرده و تولید کنند و در نتیجه شکاف بین انسان و سیستم‌های هوشمند را پر کنند. این کشف راه های جدیدی را برای بهبود ارتباطات، تصمیم گیری و تجزیه و تحلیل داده ها باز می کند

مزایای اصلی استفاده از مدل LLaMA چیست؟

استفاده از مدل LlaMA مزایای مختلفی دارد، از جمله بهبود پردازش زبان طبیعی، هوش زبانی و ساده‌سازی مشاغل پیچیده. ماشین‌ها را قادر می‌سازد تا بینش‌های معناداری را از داده‌ها به دست آورند، به طور مؤثر با انسان‌ها ارتباط برقرار کنند و بر اساس درک زبان تصمیمات آگاهانه بگیرند.

کاربردهای مدل LLaMA چیست؟

مدل LlaMA طیف وسیعی از کاربردها و زمینه ها را دارد. می توان از آن برای ارائه تعاملات بیشتر شبیه انسان در چت بات ها و دستیاران مجازی استفاده کرد. این پتانسیل برای بهبود تجزیه و تحلیل احساسات، ترجمه زبان و توسعه محتوا دارد. همچنین می توان از آن در تجزیه و تحلیل داده ها، پشتیبانی مشتری و سیستم های مدیریت دانش استفاده کرد.

چگونه می توانم مدل LlaMA را در زیرساخت هوش مصنوعی فعلی خود ادغام کنم؟

می‌توانید از چارچوب‌های یادگیری ماشینی استفاده کنید که مدل‌های مبتنی بر زبان را قادر می‌سازد تا مدل LlaMA را در زیرساخت هوش مصنوعی شما ادغام کنند. بسیاری از کتابخانه‌ها و پلتفرم‌ها شامل مدل‌های LlaMA از قبل آموزش‌دیده هستند که می‌توان آن‌ها را به‌خوبی تنظیم کرد یا همان‌طور که هست استفاده کرد. در بیشتر موارد، یکپارچه سازی مستلزم آموزش مدل بر روی داده های مربوطه و ادغام آن در سیستم ها یا برنامه های موجود شما است.

نتیجه گیری

در نهایت، مدل LlaMA پیشرفتی را در زمینه یادگیری ماشینی مبتنی بر زبان ارائه می دهد. ماشین‌ها را قادر می‌سازد تا با استفاده از قدرت زبان به روش‌های انسان‌مانند درک، تولید و ارتباط برقرار کنند. مفهوم LlaMA پتانسیل بسیار زیادی برای ایجاد انقلاب در صنایع مختلف و تأثیرگذاری بر آینده فناوری های هوش مصنوعی دارد. لطفاً نظرات و انتقادات خود را در بخش نظرات زیر به اشتراک بگذارید.

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×