Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/30677
Title: Analisys of taxi data for understanding urban dynamics
Authors: Veloso, Marco 
Orientador: Bento, Carlos
Phithakkitnukoon, Santi
Keywords: Urban Mobility; Intelligent Transportation Systems; Taxi-GPS traces
Issue Date: 22-Sep-2016
Citation: VELOSO, Marco - Analisys of taxi data for understanding urban dynamics. Coimbra : [s.n.], 2016. Tese de doutoramento. Disponível na WWW: http://hdl.handle.net/10316/30677
Abstract: O crescimento das áreas urbanas apresenta tanto desafios como oportunidades. Desafios devido à crescente exigência de recursos e serviços necessários. No entanto, também permite oportunidades para o desenvolvimento de novos serviços e, colectivamente, as áreas urbanas podem produzir dados para auxiliar a melhor compreender a mobilidade urbana. Táxi pode ser compreendido como uma sonda ou sensor para as condições de tráfico. Adicionalmente, a sua flexibilidade e ubiquidade podem ser usados para recolher largas quantidades de dados, essenciais para o estudo da mobilidade urbana. Neste estudo exploramos um conjunto de dados composto por trajectórias GPS de táxis, recolhidos em Lisboa, Portugal, para compreender até que ponto os dados de táxi podem representar a mobilidade urbana. Mais especificamente, neste estudo pretendemos responder a três questões de investigação: (A) É possível desenvolver um modelo para estimar a solicitação de táxis numa cidade? (B) Estarão as fontes de dados correlacionadas entre si? Mais especificamente, estará a actividade dos táxis correlacionada com a actividade da rede móvel, duas das principais fontes de dados urbanos? (C) Os dados de táxi podem ser usados como sensor para inferir as concentrações de gases tóxicos em áreas urbanas? Para auxiliar a análise, bases de dados adicionais foram recolhidas para o mesmo espaço físico e período temporal, correspondendo à densidade de chamadas da rede móvel, informação sobre poluentes atmosféricos e condições meteorológicas. Para permitir o desenvolvimento de um modelo de estimação da solicitação de táxis, foi realizada uma análise exploratória. O estudo foi capaz de visualizar a variação espacial e temporal, identificar as principais localizações para entrada e saída de passageiros, bem como as horas de maior afluência e observar que a distância e duração das viagens seguiam as distribuições Gamma e exponencial. O estudo também foi capaz de identificar a ligação entre as localizações de entrada e saída de passageiros, observando fortes ligações entre centros de transportes públicos. Adicionalmente, uma análise aos comportamentos dos taxistas durante o período de procura de novos passageiros foi realizada. A análise de trajectos GPS dos condutores mais eficientes demonstraram estratégias específicas para maximizar o ganho. Tanto ao aguardar passageiros in localizações relacionadas com os principais centros de transporte públicos em horas específicas do dia, como ao evitarem viajar longas distancias para a próxima localização de embarque de um passageiro. A análise inferencial explorou a possibilidade de estimar a próxima área de embarque de passageiros, a partir da localização actual (a localização da última saída de passageiros), o dia da semana, as condições climatéricas e o tipo de área (definido por pontos de interesse). O motor de inferência é baseado num classificador simples Bayesian, conseguindo obter 56,3% de acuidade a partir das amostras de treino. A Localização actual revelou ser a principal variável que contribui para o algoritmo, contrariamente às condições climatéricas, que se mostraram ser a variável com menos peso no cálculo. A investigação da relação entre actividades de táxi e da rede móvel começou por realizar uma análise exploratória da densidade das chamadas na rede móvel. O estudo mostrou um padrão razoavelmente regular, consistente ao longo do dia e durante toda a série temporal. Durante a análise de dados, foi identificada uma correlação significante entre a actividade de táxis e a densidade das chamadas na rede móvel, com um coeficiente de determinação de 0,8047. A relação mais forte foi obtida durante horas de expediente (8h-22h), em dias de semana, em áreas de média e elevada actividade do serviço táxi. Além disso, a densidade de chamadas da rede móvel apresenta uma significante correlação com a actividade dos táxis das últimas duas horas. Acima disso, verificámos que essa previsibilidade entre ambas as variáveis pode ser modelada com uma função linear, e varia ao longo das horas do dia. Para modelar e estimar as concentrações de gases tóxicos, foi considerado a actividade de táxis e as condições meteorológicas (temperatura, vendo humidade e estado do tempo). O estudo revelou os padrões diários e sazonais dos gases tóxicos, como estes estão correlacionados com o estado do tempo e como o dióxido de azoto – um marcador para a poluição atmosférica – está fortemente relacionado com os restantes gases tóxicos. Usando um perceptrão multi-camada, com 15 camadas escondidas e uma função de activação sigmóide, fomos capazes de estimar as concentrações de dióxido de azoto com um coeficiente de correlação de 0,7869, demonstrando a relação entre as concentrações de gases tóxicos com outras variáveis urbanas, especialmente em estações de monitorização de tráfico. A análise de multicolinearidade foi aplicada para garantir variáveis preditoras não correlacionadas entre si e evitar sobre-ajuste do modelo. Este estudo contribui para uma melhor compreensão das interacções complexas entre as diversas fontes de dados urbanos. As nossas observações, até certo ponto, revelam as relações entre diferentes fontes de dados, especialmente o papel do serviço de táxi como variável preditora para outras variáveis urbanas.
The growth of urban areas poses both challenges and opportunities. Challenges due to the increase in demand for resources and services needed. However, it also allows the opportunity for the development of new services and, collectively, urban areas can produce data to help better understand urban mobility. The taxi can be perceived as a probe for traffic conditions. Additionally, its flexibility and ubiquity can be used to retrieve large data sets of information, essential for studying urban mobility. In this study we explore a data set of taxi-GPS traces, collected in Lisbon, Portugal, to understand to what extent can taxi data represent urban mobility. More specifically, in this study we aimed to answer three research questions: (A) Is it possible to develop a model to estimate the taxi demand throughout the city? (B) Are urban data sources correlated among them? More specifically, is taxi activity correlated with mobile phone activity, two of the major urban data sources? (C) Can taxi data be used as a probe to infer the concentrations of exhaust gases in urban areas? To aid the analysis, additional data sets were collected for the same spatiotemporal period, regarding mobile phone activity, information on atmospheric pollutants and meteorological conditions. In order to develop a model to estimate taxi demand, an exploratory analysis was performed. The study was able to visualize the spatiotemporal variation, identifying the main pick-up and drop-off locations and busy hours, and observe that trip distance and duration follow Gamma and Exponential distributions. The study was also able to identify the link between pick-up and drop-off locations, observing strong links between public transportation hubs. Additionally, an analysis of taxi driver behavior during downtime was performed. The analysis of taxi-GPS from top drivers have shown specific strategies used to maximize their profit. Either by waiting for passengers in locations related with main public transportation hubs, during specific hours of the day, or by avoiding traveling great distances to the next pick-up location. The inference analysis explored the possibility of estimating the next pick-up area given the current location (last drop-off), day of the week, hour, weather conditions and area type (characterized by points of interest). The inference engine is based on a naïve Bayesian classifier, achieving 56.3% of accuracy of the training sample. Current location turned out to be the main contributor to the algorithm, contrary to weather conditions which is the variable with the least weight in the calculation. The investigation of the relationship between taxi and mobile phone activity started by performing an exploratory analysis of the mobile phone call intensity. The study showed a fairly regular pattern, consistent throughout the day and during the entire time series. During data analysis, a significant correlation between the taxi volume and mobile phone call intensity was found, with a coefficient of determination of 0.8047. The strongest correlation was achieved over active hours of the day (8 AM-10 PM) and active days of the week (weekdays), in areas with medium and high taxi activity. Moreover, mobile phone call intensity had a significant correlation with taxi volume of the previous two hours. Furthermore, we found that this inter-predictability could be modeled with a linear function and varied across different times of the day. To model and estimate the concentration of exhaust gases, taxi activity and meteorological conditions (temperature, wind, humidity, and weather conditions) were considered. The study revealed the daily and seasonal patterns of exhaust gases, how they are correlated with the weather conditions, and how nitrogen dioxide - a marker for atmospheric pollution - is strongly correlated with other exhaust gases. Using a multilayer perceptron, with 15 hidden layers and a sigmoid activation function, we were able to estimate the nitrogen dioxide concentrations, with a coefficient of correlation of 0.7869, showing a relationship between the exhaust gas concentration and other urban variables, especially on traffic stations. The multicollinearity analysis was applied to ensure non-correlated predictor variables and avoid overfitting of the model. This study contributes to a better comprehension of the complex interactions between the diversity of urban data sources. Our findings, to some extent, unveil the relationships between different urban data sources, especially the role of taxi service as a predictor variable for other urban variables.
Description: Tese de doutoramento em Ciências e Tecnologias da Informação, apresentada ao Departamento de Engenharia Informática da Universidade de Coimbra
URI: https://hdl.handle.net/10316/30677
Rights: openAccess
Appears in Collections:FCTUC Eng.Informática - Teses de Doutoramento

Files in This Item:
File Description SizeFormat
Analisys of taxi data for understanding urban dynamics.pdf11.58 MBAdobe PDFView/Open
Show full item record

Page view(s)

344
checked on Apr 16, 2024

Download(s) 20

1,554
checked on Apr 16, 2024

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.