breadcrumbs_delimiter هوش مصنوعی breadcrumbs_delimiter چرا DeepMind انسان‌نماهای هوش مصنوعی را به کمپ فوتبال می‌فرستد؟
هوش مصنوعی

چرا DeepMind انسان‌نماهای هوش مصنوعی را به کمپ فوتبال می‌فرستد؟

شهریور 11, 1401 30135

نیکلاس هیس، دانشمند پژوهشی در DeepMind و یکی از نویسندگان همکار مقاله با Lever، می‌گوید: «این واقعاً کار نکرد.» به دلیل پیچیدگی مشکل، گستره وسیع گزینه‌های موجود، و فقدان دانش قبلی در مورد این کار، عوامل واقعاً هیچ ایده‌ای نداشتند که از کجا شروع کنند – به همین دلیل پیچ خوردن و تکان دادن.

بنابراین، هیس، اهرم و همکارانش در عوض از روش‌های بدوی موتور احتمالی عصبی (NPMP) استفاده کردند، یک روش آموزشی که مدل هوش مصنوعی را به سمت الگوهای حرکتی بیشتر شبیه به انسان سوق داد، با این انتظار که این دانش زیربنایی کمک کند حل مشکل نحوه حرکت در زمین فوتبال مجازی. لیور می‌گوید: «این اساساً کنترل حرکتی شما را به سمت رفتار واقعی انسان، حرکات واقعی انسانی سوق می‌دهد. لوور می‌گوید: «و این از تصویربرداری حرکتی آموخته شده است – در این مورد، بازیگران انسانی که فوتبال بازی می‌کنند.»

این «فضای اکشن را دوباره پیکربندی می‌کند». حرکات ماموران قبلاً توسط بدن و مفاصل انسان مانند آنها محدود شده است که فقط به روش های خاصی می توانند خم شوند و قرار گرفتن در معرض داده های انسان واقعی آنها را بیشتر محدود می کند که به ساده شدن مشکل کمک می کند. Lever می‌گوید: «این باعث می‌شود چیزهای مفید با آزمون و خطا کشف شوند. NPMP روند یادگیری را سرعت می بخشد. بین آموزش هوش مصنوعی برای انجام کارها به روشی که انسان ها انجام می دهند، «تعادل ظریفی» وجود دارد، در حالی که به آن آزادی کافی برای کشف راه حل های خودش برای مشکلات داده می شود – که ممکن است کارآمدتر از راه حل هایی باشد که خودمان می اندیشیم. .

آموزش پایه با تمرینات تک نفره دنبال شد: دویدن، دریبل زدن، و ضربه زدن به توپ، تقلید از روشی که انسان ها ممکن است قبل از شیرجه رفتن در یک مسابقه کامل، ورزش جدیدی را یاد بگیرند. وضعیت. پاداش های یادگیری تقویتی مواردی مانند دنبال کردن موفقیت آمیز یک هدف بدون توپ، یا دریبل زدن توپ در نزدیکی یک هدف بود. لیور می‌گوید این برنامه درسی از مهارت‌ها راهی طبیعی برای ایجاد وظایف پیچیده‌تر بود.

هدف تشویق عوامل به استفاده مجدد از مهارت‌هایی بود که ممکن بود خارج از زمینه فوتبال آموخته باشند. در یک محیط فوتبال – تعمیم دادن و انعطاف پذیر بودن در جابجایی بین استراتژی های حرکتی مختلف. عواملی که در این تمرین ها تسلط داشتند به عنوان معلم استفاده می شدند. همانطور که هوش مصنوعی تشویق شد تا آنچه را که از ضبط حرکت انسان آموخته بود تقلید کند، همچنین به دلیل عدم انحراف زیاد از استراتژی هایی که عوامل معلم در سناریوهای خاص استفاده می کردند، حداقل در ابتدا پاداش دریافت کرد. Lever می‌گوید: «این در واقع پارامتری از الگوریتم است که در طول تمرین بهینه می‌شود. «با گذشت زمان، اصولاً می‌توانند وابستگی خود را به معلمان کاهش دهند.»

با بازیکنان مجازی‌شان که آموزش دیده‌اند، زمان انجام برخی اقدامات مسابقه فرا رسیده است: شروع با بازی‌های 2v2 و 3v3 برای به حداکثر رساندن مقدار تجربه ای که عوامل در طول هر دور شبیه سازی جمع آوری کردند (و تقلید از نحوه شروع بازیکنان جوان با بازی های کوچک در زندگی واقعی). برترین‌ها—که می‌توانید در اینجا تماشا کنید—انرژی آشفته سگی را دارد که در پارک به دنبال توپ است: بازیکنان آنقدر بدوید که به جلو تلو تلو خوردن، همیشه در آستانه سقوط به زمین. زمانی که گل به ثمر می‌رسد، نه از طریق پاس‌های پیچیده، بلکه ضربه‌های امیدوارکننده در زمین بالا و ریباندهای فوتبال مانند از روی دیوار عقب است.

***

منبع : https://www.wired.com

به این نوشته امتیاز بدهید!

افراد نیوز

افراد نیوز

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

  • ×