视频游戏作为语料库：使用辐射新拉斯维加斯对话框的情感分析

论文标题

视频游戏作为语料库：使用辐射新拉斯维加斯对话框的情感分析

Video Games as a Corpus: Sentiment Analysis using Fallout New Vegas Dialog

论文作者

Hämäläinen, Mika, Alnajjar, Khalid, Poibeau, Thierry

论文摘要

我们提出了一种从Fallout New Vegas提取多语言情感注释的对话框数据集的方法。游戏开发人员在8种不同的观点之一中已经对游戏中的每一条对话进行了详细说明：\ textit {愤怒，厌恶，恐惧，快乐，中立，痛苦，sad}和\ textit {惊讶}。该游戏已翻译成英语，西班牙，德语，法语和意大利语。我们使用多语言BERT，XLMROBERTA和语言特定的BERT模型对提取数据集的多语言多标签情绪分析进行了实验。在我们的实验中，对于大多数语言，多语言BERT的表现优于XLMroberta，对于大多数语言而言，特定于语言的模型也比多语言BERT好一些。最好的总体准确性是54 \％，是通过在西班牙数据上使用多语言BERT来实现的。提取的数据集为情感分析提供了一项具有挑战性的任务。我们已公开发布了数据，包括测试和训练分裂，在Zenodo上公开。由于版权原因，数据集已被改组。

We present a method for extracting a multilingual sentiment annotated dialog data set from Fallout New Vegas. The game developers have preannotated every line of dialog in the game in one of the 8 different sentiments: \textit{anger, disgust, fear, happy, neutral, pained, sad } and \textit{surprised}. The game has been translated into English, Spanish, German, French and Italian. We conduct experiments on multilingual, multilabel sentiment analysis on the extracted data set using multilingual BERT, XLMRoBERTa and language specific BERT models. In our experiments, multilingual BERT outperformed XLMRoBERTa for most of the languages, also language specific models were slightly better than multilingual BERT for most of the languages. The best overall accuracy was 54\% and it was achieved by using multilingual BERT on Spanish data. The extracted data set presents a challenging task for sentiment analysis. We have released the data, including the testing and training splits, openly on Zenodo. The data set has been shuffled for copyright reasons.

下载PDF全文

下载文献需遵守相关版权规定

论文标题