Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/102913
Title: Quality Assessment of Inspection and Code Development Using Non-Intrusive Physiological Indicators
Other Titles: Avaliação da qualidade de inspeção e desenvolvimento de código usando indicadores fisiológicos não intrusivos
Authors: Bernardes, André Matias
Orientador: Carvalho, Paulo Fernando Pereira de
Couceiro, Ricardo Jorge dos Santos
Keywords: engenharia de software; erro humano; variabilidade cardíaca (HRV); pupilografia; biofeedback; software engineering; human error; Heart Rate Variability (HRV); pupillography; biofeedback
Issue Date: 29-Sep-2022
Serial title, monograph or event: Quality Assessment of Inspection and Code Development Using Non-Intrusive Physiological Indicators
Place of publication or event: DEI
Abstract: Esta tese foi desenvolvida no âmbito do projeto “Biofeedback Augmented Software Engineering” (BASE; Grant POCI - 01-0145 - FEDER- 031581), o qual tem o objetivo de desenvolver uma solução capaz de detetar as zonas de código com maior probabilidade de ocorrência de erros, baseado nos sinais vitais do programador. O objetivo desta tese é avaliar a qualidade e fiabilidade das características dos sinais temporais da variabilidade cardíaca (HRV) e da variação da dilatação da pupila (pupilografia) para a discriminação de diferentes níveis de stress cognitivo em ambientes de inspeção de código, que podem ser adquiridos usando métodos não invasivos. De modo alcançar a solução proposta pelo projeto BASE, é necessário começar por descobrir a resolução temporal ideal que otimiza a deteção de variações no stress cognitivo para cada característica do sinal HRV, sem comprometer a sua fiabilidade no contexto de inspeção de código. No entanto, os estudos existentes relacionados com este tópico foram desenvolvidos com os sujeitos em repouso ou realizando tarefas básicas em ambientes muito controlados. De modo a descobrir quais as características do HRV mais adequadas para serem utilizadas em aplicações reais, como o contexto de inspeção de código mencionado, e para perceber as suas limitações temporais, foram realizadas abordagens de estudo de análise estatística e de classificação. Um total de 31 características do sinal HRV extraídas utilizando janelas temporais de diferentes tamanhos (entre 3 minutos e 10 segundos) foram analisadas em contexto de inspeção de código.Seguindo a abordagem da análise estatística, foi possível identificar um conjunto de cinco características consideradas as mais fiáveis em janelas temporais curtas no presente contexto: mNN, HF, LF, LFpeak e totPow. Desta abordagem, determinou-se ainda que 30 segundos foi a duração mais curta contendo características consideradas fiáveis. A abordagem da classificação utilizou classificadores SVM (Support Vector Machine) para analisar o impacto da janela de extração nos resultados da classificação da complexidade de secções de código de software. As características do sinal HRV foram associadas às secções de código observadas pelo programador e transformadas estatísticas das mesmas foram calculadas. Os F1-Scores obtidos para os diferentes classificadores variaram entre 0.75 e 0.62, sendo que se desconsiderarmos os resultados da janela temporal de 10 segundos, que mostrou ser demasiado curta para o contexto atual, os F1-scores variaram entre 0.75 e 0.66. Estes resultados indicam que é possível obter performances de classificação semelhantes utilizando janelas mais curtas comparativamente com as mais longas.Relativamente às características do sinal da pupilografia, verifica-se a falta de consenso nas linhas de orientação relativas às bandas de frequência deste sinal, com diversos autores a utilizarem diferentes bandas de frequência na sua análise. Com isto em mente, procurámos de entre várias hipóteses a combinação de limites de bandas que maximiza a correlação entre a banda das baixas frequências (LF) e a das altas frequências (HF) da pupilografia com estas mesmas bandas do sinal HRV. Seguindo este procedimento fomos capazes de selecionar os limites de banda adequados para as bandas LF e HF para a extração de características. Os nossos resultados indicam que a banda mais adequada para as LF vai desde 0.13Hz a 0.28Hz e para as HF desde 0.28Hz a 0.35Hz. Destas bandas foram extraídas características que foram associadas à respetiva secção observada pelo participante no respetivo momento de extração e foram calculadas transformadas estatísticas destas características. Um classificador SVM, treinado utilizando estas transformadas, alcançou um F1-Score médio de 0.76, o melhor resultado em todo o estudo, atingindo o maior F1-score médio com a menor variabilidade. Estes resultados indicam que poderá ser possível alcançar um método totalmente não invasivo baseado em características da pupilografia para classificação de complexidade de secções de código.
This thesis was developed under the Biofeedback Augmented Software Engineering (BASE) project (Grant POCI - 01-0145 - FEDER- 031581), which aims to develop a solution capable of using biofeedback from the programmer to detect software code areas more prone to error. This thesis aims to assess the quality and reliability of Heart Rate Variability (HRV) and Pupillography (Pupil Diameter time series) measurements for cognitive stress discrimination in a code inspection context, which can be acquired using non-intrusive methods.In order to accomplish the solution described, we need to find the ideal time resolution for each HRV feature which optimizes the detection of cognitive stress variations without compromising its reliability in a code inspection context. However, the studies found in the literature related to this topic were developed with the subjects at rest or performing elementary tasks in controlled environments. In order to find out which HRV features are adequate to be used in real-life applications, such as the mentioned high cognitive dynamic code inspection context, and to understand their time frame limitations, statistical and classification analysis approaches were followed. A total of 31 HRV features, extracted using time frames of variable sizes (ranging from 3 minutes to 10 seconds) in a code inspection context, were analyzed through these two approaches.From the statistical approach, we could identify five features as the most reliable for the smallest time frames considering the present context: the mean NN, the HF, the LF, the LFpeak and the totPow features. Furthermore, we also determined that the 30-second window was the smallest time frame considered to have reliable measurements. The classification approach used Support Vector Machine (SVM) classifiers to analyze the impact of the extracting window in the complexity classification of software code sections. The HRV features were associated with the corresponding code section gazed at the extraction time, and statistical transformations of these features were computed. The F1-Scores obtained for the different classifications ranged from 0.75 to 0.62 across all windows. Furthermore, excluding the 10-second corresponding results, a window that proved to be too short of a time frame in the current context, the mean F1 scores obtained ranged between 0.75 and 0.66, indicating that it is possible to achieve similar classification performances using smaller time frames. Regarding the pupillography measurements, in the literature, there is a lack of consensus in the guidelines about the pupillography frequency bands, with several authors using and reporting different bands for this signal analysis. With this in mind, we searched through several pupillography frequency band combinations to find the low-frequency (LF) and high-frequency (HF) bands that maximized the correlation with the HRV LF and HF bands. Following this procedure, we were capable of selecting adequate LF and HF band limits for the feature extraction in the present code inspection context: the LF band from 0.13Hz to 0.28Hz and the HF band from 0.28Hz to 0.35Hz. The features extracted from these bands were associated with the corresponding code section, and statistical transformations of these features were computed. An SVM classifier was trained using these transformed features, achieving a 0.76 mean F1-Score which was the best performance in the overall study, having the highest mean F1-Score with the lowest variability. These results indicate that it could be possible to achieve an entire non-intrusive method using pupillography features for code complexity classification.
Description: Trabalho de Projeto do Mestrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/102913
Rights: openAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Tese_AndreBernardes_MEB_corrections.pdf14.7 MBAdobe PDFView/Open
Show full item record

Page view(s)

72
checked on May 14, 2024

Download(s)

47
checked on May 14, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons