Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/103007
Title: SUBGROUP DISCOVERY IN SOCCER DATA
Other Titles: DESCOBERTA DE SUBGRUPOS EM DADOS DE FUTEBOL
Authors: Marques, Miguel Paulo Martins
Orientador: Abreu, Pedro Manuel Henriques da Cunha
Keywords: Descoberta de Subgrupos; Futebol; Dados Espaciotemporais; Golos Previstos; Mineração de Dados; Subgroup Discovery; Soccer; Spatio-Temporal Data; Expected Goals; Data Mining
Issue Date: 14-Jul-2022
Serial title, monograph or event: SUBGROUP DISCOVERY IN SOCCER DATA
Place of publication or event: DEI | FCTUC
Abstract: Nos dias de hoje, o Futebol é o desporto mais praticado em todo o mundo. Devido ao seu impacto social e aos investimentos avultados que têm sido feitos, a vitória num jogo representa muito mais do que três pontos. Assim, qualquer informação adicional que se possa transmitir aos jogadores pode constituir uma importância vital para a conquista dessa vitoria. Ao longo dos anos, várias técnicas de Machine Learning têm sido aplicadas a dados de futebol com vista à extração de comportamentos padrão de jogadores e de equipas. Incluídas neste conjunto encontram-se as técnicas de Subgroup Discovery que permitem encontrar subconjuntos cuja distribuição de uma propriedade de interesse varie comparativamente com a distribuição da população na integra, ou seja, extraindo assim padrões pouco comuns dentro de ações frequentes. Têm sido desenvolvidos vários trabalhos com técnicas de Subgroup Discovery ao futebol, onde a grande maioria desses trabalhos utiliza fundamentalmente Tracking Data e Feature Engineering. Os trabalhos de Subgroup Discovery dentro deste contexto focam-se essencialmente em utilizar técnicas existentes com dados espaciotemporais de Futebol com o objetivo de encontrar subconjuntos apenas utilizando targets binários, assim como jogadas que resultem em ataques perigosos e golos. Para colmatar esta limitação, o principal objectivo deste trabalho é encontrar subgrupos (não apenas com targets binários) nas dimensões espaciotemporais das acções de futebol que conduzem a um golo. Assim como compreender as características e o impacto no jogo atribuído a cada subgrupo. De modo a alcançar esse objetivo, propusemos a utilização de dois tipos de targets, um binário e um numérico. O target binário consiste em saber se uma jogada acabou num golo ou não, e o alvo numérico consiste na previsão de informação adicional chamada Expected Goals (xG). Neste estudo, foram realizadas duas experiências, uma preliminar onde realizámos uma experimentação de Subgroup Discovery mais técnica (com diferentes Search Strategies e Quality Function) com dados de eventos da Premier League Inglesa na época 2017/2018. Finalmente, a experiência principal foi realizada com dados de Tracking e de eventos das épocas de 2020/2021 e 2021/2022 da Premier League Holandesa (Eredivisie). Na experiência principal, testamos múltiplas abordagens de Subgroup Discovery existentes com características espaciotemporais a partir de dados de futebol. Os melhores subgrupos encontrados aumentaram a probabilidade de marcar golo de 11,5% para 20,0%. Além disso, também nos apercebemos de que existem subgrupos específicos para certas equipas, o que nos leva a concluir que Subgroup Discovery consegue detectar diferentes estilos de jogo de diferentes equipas.
Soccer is the most played sport in the world today. Due to its social impact and the vast investments involved, a victory in a game represents much more than three points. Therefore, any additional information provided to all the stakeholders (e.g., managers, players, agents) can be crucially important in winning a match. Over the years, several machine learning techniques have been employed in soccer data to extract standard behaviours of players and teams, including Subgroup Discovery. Subgroup Discovery techniques aim to find subsets in which the distribution of a property of interest significantly differs from the whole population, i.e., extracting unusual patterns within frequent actions. The vast majority of Subgroup Discovery applications employed in soccer use tracking data and feature engineering. However, most works found in the literature only consider binary targets within the soccer domain.To address this limitation, the main goal of this work is to find subgroups (not only with binary targets) in the Spatio-temporal space of soccer actions that lead to a goal and to understand the characteristics and impact on the play assigned to each subgroup. To reach it, we proposed using two types of targets, a binary and a numerical one. The binary target consists of whether a play ended up in a goal or a miss, and the numerical target consists of the prediction of additional information called Expected Goals (xG). In this thesis, two experiments were performed, a preliminary one where we performed a more technical subgroup discovery experiment (with different search strategies and quality functions) with event-stream data from the English Premier League in the 2017/2018 season. Then the main experiment was carried out with both tracking and event-stream data from seasons 2020/2021 and 2021/2022 of the Dutch Premier League Eredivisie. In the main experiment, we tested multiple existing Subgroup Discovery approaches with Spatio-Temporal characteristics from soccer data. The best subgroups found increased the probability of scoring a goal from 11.5% to 20.0%. We also realised that there are team-specific subgroups, which leads us to conclude that Subgroup Discovery can detect different play styles from different teams.
Description: Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/103007
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Thesis.pdf5.17 MBAdobe PDFView/Open
Show full item record

Page view(s)

77
checked on Apr 23, 2024

Download(s)

104
checked on Apr 23, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons