دانستنی ها و اخبار علمی

چگونه تجزیه و تحلیل داده های نسل بعدی فوتبال آمریکا را تغییر می دهد



هر سال، اندکی پس از سوپربول، بهترین بازیکنان فوتبال کالج آمریکا راهی ایندیاناپولیس می شوند. این یک آیین بهاری است، مانند مهاجرت پرندگان. مقصد آنها Combine است، رویدادی یک هفته ای که در آن تیم های لیگ ملی فوتبال استعداد خود را ارزیابی می کنند تا مشخص کنند چه کسی را در پیش نویس NFL آینده انتخاب خواهند کرد.

یک “ترکیب” دیگر در یک سالن رقص در مرکز همایش نه چندان دور از استادیوم برگزار خواهد شد. نکته قابل توجه در اینجا فاصله 40 یاردی نیست، بلکه ارائه تحقیقات شش دقیقه ای است. شرکت کنندگان ستاره های ورزشی نیستند، بلکه دانشمندان داده ای هستند که به دور نهایی Big Data Bowl آمده اند. این مسابقه که توسط NFL در سال 2018 راه اندازی شد، تیم های محققان را به چالش می کشد تا ابزارهای تجزیه و تحلیل و هوش مصنوعی را در داده های فوتبال به کار گیرند.

در سال‌های اخیر، تجزیه و تحلیل‌ها به تیم‌های NFL اجازه می‌دهند تا بازیکنان را به روش‌هایی ارزیابی کنند که قبلاً امکان‌پذیر نبود – به عنوان مثال، توانایی یک مدافع برای ایجاد فرصت‌های تکل، نه فقط تکل‌های کامل. مربیان از ارقام کلیدی برای بهینه سازی آماده سازی بازی استفاده می کنند. و طرفداران، و همچنین شرط‌بندان و شرط‌بندان، مشتاق بینش‌هایی هستند که NFL آن را «آمار نسل بعدی» می‌نامد.

شرکت کنندگان در Big Data Bowl، مانند همتایان خود، می توانند توسط یک تیم فوتبال امضا شوند. مایک لوپز، مدیر ارشد داده‌ها و تجزیه و تحلیل فوتبال NFL می‌گوید حدود 40 نفر از آنها توسط حدود 20 تیم استخدام شدند. دیگران به شرکت هایی مانند Zelus Analytics، StatsBomb و Telemetry Sports ملحق شده اند که داده ها و خدمات را به تیم های NFL و سایر تیم های ورزشی ارائه می دهند. (استفانی کووالچیک، دانشمند داده در Zelus Analytics، در سال 2023 توضیح داد که چگونه می توان از تکنیک های مشابه در ورزش های مختلف استفاده کرد. بررسی اجمالی سالانه آمار و کاربرد آنها.)

پنج تیم فینالیست از بین بیش از 300 شرکت کننده برای Big Data Bowl 2024 انتخاب و به ایندیاناپولیس دعوت شدند. ران یورکو، آماردان دانشگاه کارنگی ملون در پیتسبورگ و یکی از فینالیست‌های امسال، می‌گوید: «در اینجا دانشگاهیان، متخصصان صنعت، دانشجویان و همکاری‌های مربی و دانشجو وجود دارد. هدف به دست آوردن بینش هایی است که «برای فوتبال مهم هستند».

هر حرکت خود را دنبال کنید

از سال 2014، بازیکنان NFL یک تراشه کامپیوتری را در بالشتک های شانه خود قرار داده اند. تراشه مکان، جهت، سرعت و شتاب بازیکن را ده بار در ثانیه ثبت می کند. لوپز می گوید: «در فوتبال، Next Gen Stats به معنای ردیابی بازیکن است. از سال 2017 تراشه مشابهی در توپ وجود دارد و از سال 2018 تمام داده ها در دسترس همه تیم ها بوده است.

اما این تنها بخشی از آن است. چیزی که آمارهای امروزی را متمایز می کند، نحوه تجزیه و تحلیل آنهاست. هدف این است که نه تنها بفهمیم چه اتفاقی افتاده، بلکه چرایی آن را نیز درک کنیم. چرا این دوی فقط سه یارد به ارمغان آورد در حالی که دیگری 88 یارد و یک تاچ داون به ارمغان آورد؟ برای اولین بار، Next Gen Stats می‌تواند سهم بازیکنان ناشناس را که هرگز توپ را لمس نمی‌کنند، اندازه‌گیری کند، مانند مسدودکننده‌ای که دونده را برای آن تاچ داون 88 یاردی آزاد کرد.

کاترین دای، یکی از فینالیست‌های امسال، می‌گوید تحقیق ارائه‌شده در Big Data Bowl 2024 دو رویکرد مکمل دارد. تجزیه و تحلیل عموما از فرمول های مشتق شده از انسان برای استخراج معیارهای معنی دار از داده ها استفاده می کند. در مقابل، یادگیری ماشین – رویکردی که هوش مصنوعی مولد مانند ChatGPT را برای ما به ارمغان آورد – رایانه را آموزش می دهد تا قابل پیش بینی ترین ویژگی ها را کشف کند.

اگر یک معیار به سادگی آنچه اتفاق افتاده را نشان دهد، احتمالاً تجزیه و تحلیل است. دای می‌گوید اگر بر اساس پیش‌بینی یا احتمال اتفاقی باشد که ممکن است اتفاق بیفتد، احتمالاً یادگیری ماشینی است.

هنگامی که NFL لوپز، یک استاد سابق آمار در کالج اسکیدمور در شمال نیویورک و یک بازیکن سابق فوتبال کالج را استخدام کرد، او آنها را بر اساس ایده Big Data Bowl در مصاحبه خود فروخت و قول داد که مانند فیلم 1989، میدان رویاهااگر داده‌ها را منتشر کنید، تحلیل‌گران می‌آیند، اما سه ساعت قبل از پایان مهلت مسابقه اول، فقط سه نفر ثبت‌نام کرده بودند، و او شروع به عصبی شدن کرد. او می‌گوید: «سپس سرازیر شدند» – ساعت 100 بین ساعت 9 شب تا نیمه‌شب. “این درسی برای من در مورد نحوه کار دانشمندان داده بود.”

از آن زمان، این مسابقه هر سال موضوع خاصی داشت. برای مثال، در سال 2020، از داده‌های ردیابی برای پیش‌بینی افزایش یارد مورد انتظار یک بازی در حال اجرا در هر نقطه از بازی بر اساس مکان 22 بازیکن و سرعت آنها استفاده شد – وظیفه‌ای که برای یادگیری ماشینی مناسب است.

برندگان دو دانشمند داده در اتریش به نام های فیلیپ سینگر و دیمیتری گوردیف بودند که فقط دانش ابتدایی از فوتبال آمریکایی داشتند. آنها هر دو “استاد بزرگ” در رقابت محاسباتی بودند و یک شبکه عصبی، یک نوع رایج از الگوریتم یادگیری ماشین، توسعه دادند که دیگران را کوچکتر کرد.

الگوریتم سینگر و گوردیف در چندین آمار نسل بعدی جدید به کار گرفته شده است: یاردهای عجله مورد انتظار، یاردهای عجله ای بالاتر از حد انتظار (تفاوت بین یاردهای واقعی به دست آمده و پیش بینی)، احتمال اول سقوط و احتمال تاچ داون. این آمار تنها شش ماه بعد در تلویزیون ملی ارائه شد.

پیروزی مطمئن

اگر می خواستید روی برنده 2024 شرط بندی کنید، تیم یورکو ممکن بود انتخاب هوشمندانه ای باشد. او قبل از اینکه NFL علاقه مند شود به تحلیل فوتبال می پرداخت. در سال 2017، یورکو و همکارانش تکنیکی را برای تخمین جنگ بازیکن فوتبال (پیروزی بالاتر از جایگزینی) ارائه کردند. این تعداد بردهای جزئی است که یک بازیکن معین در مقایسه با یک بازیکن جایگزین متوسط ​​به دست آورده است. (اصطلاح “پیروزی جزئی” به این دلیل است که به بازیکن فقط بخشی از اعتبار یک پیروزی داده می شود.)

جنگ بیش از 20 سال است که یک معیار مهم در بیسبال بوده است، اما ترجمه آن به فوتبال چندان آسان نبوده است. مقاله یورکو، که در مجله تحلیل کمی در ورزشالهام بخش Nate Sterken، برنده اولین Big Data Bowl و اکنون دانشمند ارشد داده برای کلیولند براونز شد تا وارد تجزیه و تحلیل فوتبال شود.

یورکو یک قاضی در Big Data Bowl بود، اما وقتی به دانشگاه کارنگی ملون نقل مکان کرد، این نقش را رها کرد، زیرا، همانطور که می‌گوید، «می‌خواست دانش‌آموزان من برنده شوند، در واقع، دانش‌آموزانش در دو گروه از پنج تیم امسال بودند». تیم های نهایی، و یکی از شاگردانش، کوانگ نگوین، برای دومین سال متوالی فینالیست شد.

موضوع سال 2024 تکل زدن بود و تیم یورکو از داده های ردیابی برای محاسبه اندازه گیری تکل های جزئی مبتنی بر فیزیک استفاده کرد. پس از تشخیص زمانی که حرکت رو به جلو دونده به طور قابل توجهی کاهش می یابد، کامپیوتر مدافعان نزدیک را شناسایی می کند و نقاط را بر اساس آن تقسیم می کند. به عنوان مثال، اگر دو مدافع در این نزدیکی باشند زمانی که حرکت دونده 50 درصد کاهش می یابد، هر کدام 25 درصد اعتبار برای تکل نهایی دریافت می کنند.

متریک تکل‌های کسری سهم بازیکنان دفاعی را برجسته می‌کند، که اغلب سرعت دونده را کاهش می‌دهند اما کمتر احتمال دارد تکل را کامل کنند. این بازیکنان (یا نمایندگان آنها) می توانند از این آمار استفاده کنند، به عنوان مثال، هنگام مذاکره درباره دستمزد.

اما تیم یورکو برنده نشد. در عوض، پیروزی و 25000 دلار جایزه به دای، متیو چانگ، دانیل جیانگ و هاروی چنگ رسید. سه نفر از دانشمندان داده به عنوان دانشجوی کارشناسی ارشد در پرینستون ملاقات کرده بودند. هیچ کدام از آنها قبلا در مسابقه برنامه نویسی شرکت نکرده بودند. دای می گوید: «ما به شوخی گفتیم که بهانه خوبی برای تماشای فوتبال است. هیچ‌کدام از آنها قبلاً در تجزیه و تحلیل ورزشی کار نکرده بودند، اما او اضافه می‌کند که “ما آماده آن هستیم”.

این تیم ابتدا سعی کردند احتمال یک تکل را در ثانیه بعد پیش بینی کنند، اما سه الگوریتم با استفاده از شبکه های عصبی به اندازه کافی دقیق نبودند. بنابراین تیم به درخت‌های تصمیم، یکی دیگر از روش‌های معروف یادگیری ماشین روی آورد و به موفقیت دست یافت. پیش‌بینی‌های تکل بهبود یافت و تیم قادر به تشخیص اشتباهات نزدیک بود.

پس از ترسیم احتمال تکل چند مدافع در یک بازی در طول زمان، چانگ متوجه قله ها و دره ها شد. مقایسه با فیلم‌های ویدیویی بازی‌ها نشان داد که این نوک‌ها مربوط به کسی است که تکل خود را از دست داده است. دای می گوید: «همه اعتبار به مت تعلق می گیرد.

این باعث شد تیم به یک تعریف قابل سنجش از تکل از دست رفته دست یابد: زمانی اتفاق می افتد که شانس یک مدافع برای انجام تکل بیش از نیم ثانیه بالای 75 درصد باشد، سپس به زیر 75 درصد می رسد و نه او و نه هم تیمی هایش تکل نمی زنند. ثانیه بعدی این یک تعریف ساده است، اما ترفند محاسبه احتمال است که بر یادگیری ماشین تکیه دارد.

همه این معیارها در معرض توسعه بیشتر هستند. مت ادواردز، رئیس تجزیه و تحلیل فوتبال آمریکایی در StatsBomb، اشاره می کند که هر دو تیم تکل ها را بر اساس نزدیکی به دونده ارزیابی کردند تا تماس واقعی. این محدودیت داده های ردیابی است. تراشه ها نمی توانند تشخیص دهند که آیا بازیکنان یکدیگر را لمس می کنند یا خیر. رویکرد قدیمی افرادی که ویدیوهای بازی را تماشا می کنند می تواند این کار را انجام دهد.

و در حالی که داده‌های مبتنی بر تراشه برای بازیکنان کالج در دسترس نیست، برخی از تیم‌ها در پیش‌نویس بعدی NFL که از 25 آوریل آغاز می‌شود، ردیابی داده‌های ویدیو را در کنار ویژگی‌های جدید تجزیه و تحلیل در نظر خواهند گرفت.

ادواردز به رمز لس آنجلس اشاره می کند. Rams به جای تکیه بر نحوه عملکرد یک بازیکن در فاصله 40 یارد و سایر رویدادهای ترکیبی که منعکس کننده اتفاقات یک بازی واقعی نیستند، منحصراً به داده های ردیابی نگاه می کنند. ادواردز گفت: “شما می خواهید بدانید که او با چه سرعتی از توپ خارج می شود.” حداکثر سرعت او چقدر است و وقتی توپ در هوا است چقدر سریع واکنش نشان می دهد؟ اینها مهارت های خاص فوتبال هستند.»



Source link

نوشته های مشابه

دکمه بازگشت به بالا