چگونه تجزیه و تحلیل داده های نسل بعدی فوتبال آمریکا را تغییر می دهد
![](https://knowablemagazine.org/docserver/fulltext/player-tracking-sports-1600x600.jpg)
هر سال، اندکی پس از سوپربول، بهترین بازیکنان فوتبال کالج آمریکا راهی ایندیاناپولیس می شوند. این یک آیین بهاری است، مانند مهاجرت پرندگان. مقصد آنها Combine است، رویدادی یک هفته ای که در آن تیم های لیگ ملی فوتبال استعداد خود را ارزیابی می کنند تا مشخص کنند چه کسی را در پیش نویس NFL آینده انتخاب خواهند کرد.
یک “ترکیب” دیگر در یک سالن رقص در مرکز همایش نه چندان دور از استادیوم برگزار خواهد شد. نکته قابل توجه در اینجا فاصله 40 یاردی نیست، بلکه ارائه تحقیقات شش دقیقه ای است. شرکت کنندگان ستاره های ورزشی نیستند، بلکه دانشمندان داده ای هستند که به دور نهایی Big Data Bowl آمده اند. این مسابقه که توسط NFL در سال 2018 راه اندازی شد، تیم های محققان را به چالش می کشد تا ابزارهای تجزیه و تحلیل و هوش مصنوعی را در داده های فوتبال به کار گیرند.
در سالهای اخیر، تجزیه و تحلیلها به تیمهای NFL اجازه میدهند تا بازیکنان را به روشهایی ارزیابی کنند که قبلاً امکانپذیر نبود – به عنوان مثال، توانایی یک مدافع برای ایجاد فرصتهای تکل، نه فقط تکلهای کامل. مربیان از ارقام کلیدی برای بهینه سازی آماده سازی بازی استفاده می کنند. و طرفداران، و همچنین شرطبندان و شرطبندان، مشتاق بینشهایی هستند که NFL آن را «آمار نسل بعدی» مینامد.
شرکت کنندگان در Big Data Bowl، مانند همتایان خود، می توانند توسط یک تیم فوتبال امضا شوند. مایک لوپز، مدیر ارشد دادهها و تجزیه و تحلیل فوتبال NFL میگوید حدود 40 نفر از آنها توسط حدود 20 تیم استخدام شدند. دیگران به شرکت هایی مانند Zelus Analytics، StatsBomb و Telemetry Sports ملحق شده اند که داده ها و خدمات را به تیم های NFL و سایر تیم های ورزشی ارائه می دهند. (استفانی کووالچیک، دانشمند داده در Zelus Analytics، در سال 2023 توضیح داد که چگونه می توان از تکنیک های مشابه در ورزش های مختلف استفاده کرد. بررسی اجمالی سالانه آمار و کاربرد آنها.)
پنج تیم فینالیست از بین بیش از 300 شرکت کننده برای Big Data Bowl 2024 انتخاب و به ایندیاناپولیس دعوت شدند. ران یورکو، آماردان دانشگاه کارنگی ملون در پیتسبورگ و یکی از فینالیستهای امسال، میگوید: «در اینجا دانشگاهیان، متخصصان صنعت، دانشجویان و همکاریهای مربی و دانشجو وجود دارد. هدف به دست آوردن بینش هایی است که «برای فوتبال مهم هستند».
هر حرکت خود را دنبال کنید
از سال 2014، بازیکنان NFL یک تراشه کامپیوتری را در بالشتک های شانه خود قرار داده اند. تراشه مکان، جهت، سرعت و شتاب بازیکن را ده بار در ثانیه ثبت می کند. لوپز می گوید: «در فوتبال، Next Gen Stats به معنای ردیابی بازیکن است. از سال 2017 تراشه مشابهی در توپ وجود دارد و از سال 2018 تمام داده ها در دسترس همه تیم ها بوده است.
اما این تنها بخشی از آن است. چیزی که آمارهای امروزی را متمایز می کند، نحوه تجزیه و تحلیل آنهاست. هدف این است که نه تنها بفهمیم چه اتفاقی افتاده، بلکه چرایی آن را نیز درک کنیم. چرا این دوی فقط سه یارد به ارمغان آورد در حالی که دیگری 88 یارد و یک تاچ داون به ارمغان آورد؟ برای اولین بار، Next Gen Stats میتواند سهم بازیکنان ناشناس را که هرگز توپ را لمس نمیکنند، اندازهگیری کند، مانند مسدودکنندهای که دونده را برای آن تاچ داون 88 یاردی آزاد کرد.
کاترین دای، یکی از فینالیستهای امسال، میگوید تحقیق ارائهشده در Big Data Bowl 2024 دو رویکرد مکمل دارد. تجزیه و تحلیل عموما از فرمول های مشتق شده از انسان برای استخراج معیارهای معنی دار از داده ها استفاده می کند. در مقابل، یادگیری ماشین – رویکردی که هوش مصنوعی مولد مانند ChatGPT را برای ما به ارمغان آورد – رایانه را آموزش می دهد تا قابل پیش بینی ترین ویژگی ها را کشف کند.
اگر یک معیار به سادگی آنچه اتفاق افتاده را نشان دهد، احتمالاً تجزیه و تحلیل است. دای میگوید اگر بر اساس پیشبینی یا احتمال اتفاقی باشد که ممکن است اتفاق بیفتد، احتمالاً یادگیری ماشینی است.
هنگامی که NFL لوپز، یک استاد سابق آمار در کالج اسکیدمور در شمال نیویورک و یک بازیکن سابق فوتبال کالج را استخدام کرد، او آنها را بر اساس ایده Big Data Bowl در مصاحبه خود فروخت و قول داد که مانند فیلم 1989، میدان رویاهااگر دادهها را منتشر کنید، تحلیلگران میآیند، اما سه ساعت قبل از پایان مهلت مسابقه اول، فقط سه نفر ثبتنام کرده بودند، و او شروع به عصبی شدن کرد. او میگوید: «سپس سرازیر شدند» – ساعت 100 بین ساعت 9 شب تا نیمهشب. “این درسی برای من در مورد نحوه کار دانشمندان داده بود.”
از آن زمان، این مسابقه هر سال موضوع خاصی داشت. برای مثال، در سال 2020، از دادههای ردیابی برای پیشبینی افزایش یارد مورد انتظار یک بازی در حال اجرا در هر نقطه از بازی بر اساس مکان 22 بازیکن و سرعت آنها استفاده شد – وظیفهای که برای یادگیری ماشینی مناسب است.
برندگان دو دانشمند داده در اتریش به نام های فیلیپ سینگر و دیمیتری گوردیف بودند که فقط دانش ابتدایی از فوتبال آمریکایی داشتند. آنها هر دو “استاد بزرگ” در رقابت محاسباتی بودند و یک شبکه عصبی، یک نوع رایج از الگوریتم یادگیری ماشین، توسعه دادند که دیگران را کوچکتر کرد.
الگوریتم سینگر و گوردیف در چندین آمار نسل بعدی جدید به کار گرفته شده است: یاردهای عجله مورد انتظار، یاردهای عجله ای بالاتر از حد انتظار (تفاوت بین یاردهای واقعی به دست آمده و پیش بینی)، احتمال اول سقوط و احتمال تاچ داون. این آمار تنها شش ماه بعد در تلویزیون ملی ارائه شد.
پیروزی مطمئن
اگر می خواستید روی برنده 2024 شرط بندی کنید، تیم یورکو ممکن بود انتخاب هوشمندانه ای باشد. او قبل از اینکه NFL علاقه مند شود به تحلیل فوتبال می پرداخت. در سال 2017، یورکو و همکارانش تکنیکی را برای تخمین جنگ بازیکن فوتبال (پیروزی بالاتر از جایگزینی) ارائه کردند. این تعداد بردهای جزئی است که یک بازیکن معین در مقایسه با یک بازیکن جایگزین متوسط به دست آورده است. (اصطلاح “پیروزی جزئی” به این دلیل است که به بازیکن فقط بخشی از اعتبار یک پیروزی داده می شود.)
جنگ بیش از 20 سال است که یک معیار مهم در بیسبال بوده است، اما ترجمه آن به فوتبال چندان آسان نبوده است. مقاله یورکو، که در مجله تحلیل کمی در ورزشالهام بخش Nate Sterken، برنده اولین Big Data Bowl و اکنون دانشمند ارشد داده برای کلیولند براونز شد تا وارد تجزیه و تحلیل فوتبال شود.
یورکو یک قاضی در Big Data Bowl بود، اما وقتی به دانشگاه کارنگی ملون نقل مکان کرد، این نقش را رها کرد، زیرا، همانطور که میگوید، «میخواست دانشآموزان من برنده شوند، در واقع، دانشآموزانش در دو گروه از پنج تیم امسال بودند». تیم های نهایی، و یکی از شاگردانش، کوانگ نگوین، برای دومین سال متوالی فینالیست شد.
موضوع سال 2024 تکل زدن بود و تیم یورکو از داده های ردیابی برای محاسبه اندازه گیری تکل های جزئی مبتنی بر فیزیک استفاده کرد. پس از تشخیص زمانی که حرکت رو به جلو دونده به طور قابل توجهی کاهش می یابد، کامپیوتر مدافعان نزدیک را شناسایی می کند و نقاط را بر اساس آن تقسیم می کند. به عنوان مثال، اگر دو مدافع در این نزدیکی باشند زمانی که حرکت دونده 50 درصد کاهش می یابد، هر کدام 25 درصد اعتبار برای تکل نهایی دریافت می کنند.
متریک تکلهای کسری سهم بازیکنان دفاعی را برجسته میکند، که اغلب سرعت دونده را کاهش میدهند اما کمتر احتمال دارد تکل را کامل کنند. این بازیکنان (یا نمایندگان آنها) می توانند از این آمار استفاده کنند، به عنوان مثال، هنگام مذاکره درباره دستمزد.
اما تیم یورکو برنده نشد. در عوض، پیروزی و 25000 دلار جایزه به دای، متیو چانگ، دانیل جیانگ و هاروی چنگ رسید. سه نفر از دانشمندان داده به عنوان دانشجوی کارشناسی ارشد در پرینستون ملاقات کرده بودند. هیچ کدام از آنها قبلا در مسابقه برنامه نویسی شرکت نکرده بودند. دای می گوید: «ما به شوخی گفتیم که بهانه خوبی برای تماشای فوتبال است. هیچکدام از آنها قبلاً در تجزیه و تحلیل ورزشی کار نکرده بودند، اما او اضافه میکند که “ما آماده آن هستیم”.
این تیم ابتدا سعی کردند احتمال یک تکل را در ثانیه بعد پیش بینی کنند، اما سه الگوریتم با استفاده از شبکه های عصبی به اندازه کافی دقیق نبودند. بنابراین تیم به درختهای تصمیم، یکی دیگر از روشهای معروف یادگیری ماشین روی آورد و به موفقیت دست یافت. پیشبینیهای تکل بهبود یافت و تیم قادر به تشخیص اشتباهات نزدیک بود.
پس از ترسیم احتمال تکل چند مدافع در یک بازی در طول زمان، چانگ متوجه قله ها و دره ها شد. مقایسه با فیلمهای ویدیویی بازیها نشان داد که این نوکها مربوط به کسی است که تکل خود را از دست داده است. دای می گوید: «همه اعتبار به مت تعلق می گیرد.
این باعث شد تیم به یک تعریف قابل سنجش از تکل از دست رفته دست یابد: زمانی اتفاق می افتد که شانس یک مدافع برای انجام تکل بیش از نیم ثانیه بالای 75 درصد باشد، سپس به زیر 75 درصد می رسد و نه او و نه هم تیمی هایش تکل نمی زنند. ثانیه بعدی این یک تعریف ساده است، اما ترفند محاسبه احتمال است که بر یادگیری ماشین تکیه دارد.
همه این معیارها در معرض توسعه بیشتر هستند. مت ادواردز، رئیس تجزیه و تحلیل فوتبال آمریکایی در StatsBomb، اشاره می کند که هر دو تیم تکل ها را بر اساس نزدیکی به دونده ارزیابی کردند تا تماس واقعی. این محدودیت داده های ردیابی است. تراشه ها نمی توانند تشخیص دهند که آیا بازیکنان یکدیگر را لمس می کنند یا خیر. رویکرد قدیمی افرادی که ویدیوهای بازی را تماشا می کنند می تواند این کار را انجام دهد.
و در حالی که دادههای مبتنی بر تراشه برای بازیکنان کالج در دسترس نیست، برخی از تیمها در پیشنویس بعدی NFL که از 25 آوریل آغاز میشود، ردیابی دادههای ویدیو را در کنار ویژگیهای جدید تجزیه و تحلیل در نظر خواهند گرفت.
ادواردز به رمز لس آنجلس اشاره می کند. Rams به جای تکیه بر نحوه عملکرد یک بازیکن در فاصله 40 یارد و سایر رویدادهای ترکیبی که منعکس کننده اتفاقات یک بازی واقعی نیستند، منحصراً به داده های ردیابی نگاه می کنند. ادواردز گفت: “شما می خواهید بدانید که او با چه سرعتی از توپ خارج می شود.” حداکثر سرعت او چقدر است و وقتی توپ در هوا است چقدر سریع واکنش نشان می دهد؟ اینها مهارت های خاص فوتبال هستند.»