基于B站视频弹幕文本的情感分析 (支持资料参考_相关定制)

基于B站视频弹幕文本的情感分析 (支持资料参考_相关定制)

目 录

1 引言 5

1.1 研究背景 5

1.2 研究意义 6

1.3 研究现状 6

2 相关理论和技术介绍 7

2.1 基于情感词典的情感值分析 7

2.2 基于Kmeans++聚类法的文本聚类 7

2.3 基于LDA算法的主题模型 8

2.4 基于NMF算法的主题模型 8

3 数据采集与处理 8

3.1 数据采集 8

3.2 数据预处理 9

3.3词云图设计 9

3.4 基于SnowNLP库对文本内容进行情感分析 10

3.5正负面文本情感分析 11

4 主题词提取 12

4.1 基于Kmeans++聚类法的文本聚类 12

4.2 基于LDA模型的主题词提取 14

4.3 基于NMF模型提取主题词 15

5 总结 17

5.1 分析与总结 17

5.2 反思与不足 17

5.3 建议与展望 17

参考文献 18

致谢 18

基于B站弹幕文本的情感分析

作者:雷皓翔 指导教师:赖明珠 副教授

(海南师范大学数学与统计学院,海口,571158)

摘要:弹幕是B站的一大视频特色。通过弹幕,用户可以更好的参与到视频观看当中,这种互动机制可有效改善平台的用户参与度,提高视频的点播率及影响。弹幕评论中蕴含丰富的情感信息,这些信息反应了用户观看时的褒贬情感,积极消极情感以及情感需求等。

本文将对B站知名up“逗比的雀巢”九条视频中弹幕文本的进行情感分析,可以帮助视频创作者了解用户对内容的反馈和情感倾向,为内容创作者和平台运营提供指导意见。同时运用LDA模型以及NMF模型对弹幕文本进行主题词提取,对视频内容进行分类归纳分析,为用户提供良好的观前体验。帮助用户更好的了解up“逗比的雀巢”的视频类型及内容。

关键词:B站弹幕文本;Kmeans聚类;LDA模型;NMF模型

Sentiment Analysis of Bilibili Video Barrage Comments

Authors: Haoxiang Lei, Advisor: Associate Professor Mingzhu Lai

(School of Mathematics and Statistics, Hainan Normal University, Haikou, 571158, China)

Abstract: Barrage comments, also known as “danmu,” are a unique feature of Bilibili videos. They allow users to interact with the video content in real-time, enhancing user engagement and increasing video views and impact. These comments contain rich emotional information, reflecting users’ sentiments, positive and negative emotions, and emotional needs during video viewing.

This paper conducts a sentiment analysis of barrage comments from nine videos by the popular Bilibili uploader “Doubi De Quechao.” The results can help video creators understand user feedback and emotional tendencies, providing guidance for content creation and platform operation. Furthermore, Latent Dirichlet Allocation (LDA) and Non-negative Matrix Factorization (NMF) models are employed to extract topic keywords from the barrage comments, enabling the classification and analysis of video content. This provides users with a better pre-viewing experience and helps them better understand the types and content of “Doubi De Quechao’s” videos.

Keywords: Bilibili Barrage Comments; K-means Clustering; LDA Model; NMF Model

1 引言

1.1 研究背景

“B站”是一家视频网站,全称“bilibili”,中文翻译为“ 哔哩哔哩弹幕网” 。B站是以动漫,漫画,以及游戏等二次元文化为内容进行视频创作的网站,同时也涵盖了游戏、生活、影视、科技等多个领域,为用户提供丰富多样的娱乐选择。随着B站的用户数量越来越庞大,视频创作领域也不断扩大,其B站特有的文化也越发丰富多彩,包括视频类型也是多样化,包括科普类视频,“鬼畜”类视频,影视游戏剪辑类视频,长短剧,同时B站也大量的引入影视剧,拥有大量的番剧和视频的版权,这些优质的视频资源不但让B站用户共同参与到视频当中去,也可供许多创作者们进行再创作。其中弹幕作为B站的一大视频特色,弹幕评论系统和用户创作平台促进了用户之间的互动和内容的分享,形成了一个活跃的社区。

总体而言,Bilibili不仅是一个视频分享平台,更是一个以二次元文化为核心的社区,为用户提供了丰富的娱乐体验,同时也推动了相关文化的发展。

有了网络视频发展的产物,网络流行文化。其内容会因其趣味性、新颖性或共鸣力而被广泛传播和分享。网络流行文化在社交媒体平台、视频分享网站、网络和即时通讯应用程序等各种在线平台上快速流通,塑造了当代社会的娱乐、交流和文化认同。而在年轻用户占比较多的B站视频中,网络流行文化最为鲜明,及时,有特色。

1.2 研究意义

弹幕作为用户观看视频时基于视频内容等与各用户实时交互的文本方式,研究弹幕可以对视频内容以及用户观看体验进行分析,判断用户对于视频的喜好程度以及对其内容的评价与思考等。本文将结合弹幕特征建立情感分析中的主题模型,LDA模型,NMF模型,这两个模型可以有效地计算并生成与视频内容相关的主题词,从而进一步分析视频内容等,结合模型的分析结果与视频内容做对比,可以清晰的主观的对两个模型以及算法进行研究做对比。

1.3 研究现状

王力认为,如今对于视频弹幕的分析有如下几个方向,弹幕网站,弹幕传播方式,弹幕文化,弹幕用户特征。同时也有对弹幕进行多维度分类。这些研究都是基于定向方向的研究。其中分析弹幕领域的主要应用的方法有统计学和人工智能。然而早期短文本情感分析作为弹幕文本分析的主要方法,研究成果多数用作视频检索。而随着深度学习的发展,神经网络也应用到了视频弹幕的研究中。

金丹丹则是基于多为情感词典对B站视频弹幕进行倾向性分析。金丹丹认为以往的情感分析将文本分为正负两面,过于单一,于是改进《知网》和《词林》并进行融合,构建了情感分类更细致化的情感词典,结合弹幕内容中出现的程度副词、否定词、双重否定词进行权值计算,再对弹幕中出现的感叹词、感叹号、疑问词、疑问号以及转折词做出相应的权值化处理。最后将处理过的弹幕进行最后,将经过以上处理的弹幕数据归类到不同的情感维度下,并且获得该情感维度下本条弹幕内容的情感值。

邱全磊则提出了文本分析领域中的不足,弹幕作为流行的视频文本,不同于传统的短文本,分析弹幕文本需要考虑颜文字表情对情感分析的影响,同时没有考虑语气词在情感表达中的作用。这影响了弹幕情感分析的效果,降低了情感分析的准确率。因此构造了颜文字与语气词的情感词典。

同样的,庄须强也提出,弹幕视频在国内变得愈来愈流行,但弹幕文化的整体发展相对较短,还缺乏相应的有效合理的管理与研究。且弹幕文本有着文本长度较短、较口语化、网络词汇较多的特点。庄须强则是使用了LSTM模型进行分析,从而突出文本关键信息。

贾中昕,则认为短文本的“短”导致了其特征的稀疏。这导致了文本任务中的效率难以提高。则运用了一种基于情感特征的关联词联想短文本扩展算法,最后将情感关联词集合加入到原始文本集合达到扩充文本特征的目的。

然而洪庆使用弹幕常用词词典的基础上通过改进传统的k-means聚类算法,对所有发表弹幕的用户进行基于情感值的分类,以此研究者可以更好的特定视频的观众在情感上的异同点 。

2 相关理论和技术介绍

情感分析是自NLP即自然语言处理领域中特别重要的分支,也是数据分析中一种常见的实用的基于于文本数据的分析方法。是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。目前进行情感分析的方法很多,一下分别进行介绍。

2.1 基于情感词典的情感值分析

该方法是一种通过统计文本中正面和负面情感词语的出现频率来判断文本情感倾向的技术。原理:收集一个包含正面和负面情感词语的情感词典。对中文文本进行分词,统计每个词语出现的频率。根据情感词典和词频,计算文本的情感值。

2.2 基于Kmeans++聚类法的文本聚类

Kmeans是常见的能将多量数据进行分类,分成不同组或簇的无监督学习算法。其原理基于欧氏距离,即在数据分类过程中,两个目标的距离越近,二者相似度就越高,约有可能分为同意类型的数据。而Kmeans++聚类法,则是在Kmeans聚类法的基础上进行的升级。Kmeans聚类算法在正式分类之前,是将K个簇中心初始化,在此基础下依赖簇中心进行收敛。若在初始化的过程中,出现了将若干个簇中心同时初始化到一个簇中心的情况,就会导致簇中心初始化失误与严重偏差,使得最后聚类出现较大误差,聚类结果精确度降低。因此本文采用Kmeans++聚类法对文本进行聚类,避免初始化簇中心出现失误。Kmeans++聚类法与Kmeans聚类法只是在初始化簇中心的算法上不同,Kmeans++聚类法在该过程是逐个选取n个簇中心,且离其它簇中心越远的样本点越有可能被选为下一个簇中心。

2.3 基于LDA算法的主题模型

LDA模型是一种主题模型,其基本原理基于贝叶斯推理,LDA也称之为潜在狄利克雷分配。该算法可以将文本文档集中的每篇文档的主题以概率分布的形式给出,从而通过分析一些文档通过算法提取出它们的主题出来后,便可以根据主题进行主题聚类或文本分类。假设在一个文档集中,有N个文档,在第n个文档中的几个词汇中,出现了词汇假设为“a”,该词汇对应的主题可以假设为“A”,则该文档集的主题为“A”的概率就会上升,随后对第“n+n”个文档进行处理时,出现的词汇所对应的主题的概率也会上升。最后通过分析得到该文档集最有可能出现的主题,以及各主题可能出现的概率。从而对该文档集进行主题归类。其核心公式为:

P(词|文档)=P(词|主题)|P(主题|文档)

因此,LDA模型在最开始的主题确定步骤,是使用狄利克雷先验来约束主题分布。

2.4 基于NMF算法的主题模型

NMF模型同样是一种主题模型,不同于LDA的贝叶斯推理,NMF使用的是非负矩阵分解算法,将给定的矩阵分解为两个非负矩阵,并且是使用乘法更新规则来更新主题。

3 数据采集与处理

3.1 数据采集

本文中选取的数据全部来源于哔哩哔哩网站。通过python代码获取cid接口爬取了up“逗比的雀巢”的不同风格,不同类型,不同内容的视频中的弹幕文本信息。如图1所示。

图1弹幕信息图

3.2 数据预处理

首先对文本内容进行分词处理,运用jieba对输入文本与词典中的左右词进行匹配。再对每个匹配好的词分别生成包含词的即时位置,结束位置和词本身的候选项。 接着jieba使用已经训练好的HMW模型来计算每个候选项的概率。最后根据概率得出句子开头到结尾的最优切分路径,得出最有可能的分词结果。

对分词处理后的文本内容进行去除停用词处理。将词语序列与停用词表进行匹配。删除匹配的停用词。得到去除停用词后的词条序列。每个词条由原始词分词清洗后的词汇构成。如图2所示。

图2数据清洗结果图

3.3词云图设计

结合上文对数据的处理,对词频进行统计,生成词云图,词频越高,在词云图中字体越大。如图3所示。

图3词云图

3.4 基于SnowNLP库对文本内容进行情感分析

基于上述对文本进行的数据处理,得到较为干净,具有较为明显情感特征的词条。

接下来运用SnowNLP库将文本中的每个单词与情感词典中的单词进行匹配。基于SnowNLP库中给定的每个词的情得分,将匹配成功的文本信息进行赋值计算,每个词条的情感得分分为消极与积极两类,每类情感得分的值为0到1之间的一个数k。积极类文本中的第i个词条情感的分记为,同理,消极类文本中记为。分别计算的总和。得出全部文本内容的正负情感值。并统计正负情感标签数,如图4,图5所示。

图4词条情感标签以及情感值信息图

图5情感值信息图

可以看出,观众对于九条视频的综合情感主要以积极为主,积极情感得分远大于消极情感得分,且在文本内容中,具有积极标签词条是具有消极标签词条的两倍。

3.5正负面文本情感分析

在上文中,通过SnowNLP库对文本赋予情感标签,将各词条分为积极与消极两类,并赋予情感值得分。本文将基于LDA模型对正负面词条进行主题寻优。与主题词提取研究侧重点不同,该分析对象主要为情感值得分较高的词条,能明显体现用户在观看视频时对内容的消极或积极感受,主要提取正负面分类之后的文本中主题词。研究主要目的为挖掘用户对视频某些内容的正负面情感。从而做到情感分析。因此称具有正面情感标签的词条为正面评论,具有负面情感标签的词条为负面评论。

首先基于上文情感分析之后的数据,建立词典与语料库,构建基于LDA算法的函数,生成正负面词条的主题词,并计算所有成对主题词向量的余弦相似度,和所有相似度值的平均值。通过选择平均相似度较低的主题数量确定最佳主题数。如图6所示,正面评论的最佳主题为4,负面评论的最佳主题数为3。

图6主题寻优折线图

通过对上述分析对正负面评论进行主题词提取,两类评论的每个主题各取4个主题词。

由得到的相关正负面评论主题词可知,观众对于视频中的演员,视频本身以及视频意义的态度积极。对于视频中的涉及恐怖元素的内容的态度消极,多以害怕为主。

其中正负面评论主题词提取结果由如下两表所示。

表1 正面评论主题词

主题 主题词

0 好帅 演员 喜欢 主演

1 优质 高产 点赞 视频

2 升华 深刻 意义 明确

3 高能 可爱 幽默 欢迎

表2 负面评论主题词

主题 主题词

1 后悔 地狱 惩罚 恶魔

2 细思极恐 害怕 吓人 谋杀

3 撒谎 杀人 可恶 怀疑

4 主题词提取

4.1 基于Kmeans++聚类法的文本聚类

4.1.1 数据预处理文本向量化基于TF-IDF

TF-IDF 算法通过分配权重来反映每个词的重要程度,根据权重对文本内容中的所有词语从高到低进行排序,权重越高说明重要性越高,排在前几位的词就可以作为目标文本的关键词。所以 TF-IDF 算法可以用来提取关键词。

其中:

(1)TF含义为词频,其计算公式为:词频(TF) = 某个词在文章中的出现次数 / 文章总词数

(2)IDF含义逆文档频率,其计算公式为逆文档频率(IDF) = log( 文章总数 / (包含该词的文章数+1) )

词频与最终的权重呈正比,逆文档频率与最终的权重呈反比。

(3)计算TF-IDF

TF-IDF = 词频(TF) * 逆文档频率(IDF)

本文采用TF-IDF的方法将文本向量化构建矩阵,在对文本进行向量化之前,设置TF-IDF 向量化器的参数0.8,即如果一个词语出现在语料库中超过 80% 的词条中,它将被 TF-IDF 向量化器丢弃。基于python中的sklearn库对其进行向量化处理,并得到TF-IDF向量化后的稀疏矩阵。在下一步文本聚类中KMeans++ 聚类算法将使用这些向量表示来计算文档之间的相似性并将其分配到簇中。

因为TF-IDF矩阵为稀疏矩阵,由较大数量的词条行与词汇列构成。每个词条只包含所有词汇列里的极少数词汇,因此每行的众多元素里绝大部分为0,只有极少数非零元素。当某词条行中的词汇在总词汇中只出现一到两次时,其对应

相关推荐

华为移动服务:它们的用途和工作原理 ▷➡️
365bet体育注册开户

华为移动服务:它们的用途和工作原理 ▷➡️

07-25 👁️ 2407
怎么换手机彩铃 换手机彩铃打什么号码
beat365下载唯一官方网

怎么换手机彩铃 换手机彩铃打什么号码

07-08 👁️ 226
倒啤酒为什么会起沫,啤酒怎样倒才不会起沫呢?
beat365下载唯一官方网

倒啤酒为什么会起沫,啤酒怎样倒才不会起沫呢?

07-09 👁️ 8324
黑光招聘靠谱吗?待遇怎么样?
必发365手机app

黑光招聘靠谱吗?待遇怎么样?

07-05 👁️ 3154
志高空调扇报价
beat365下载唯一官方网

志高空调扇报价

07-19 👁️ 9869
iPhone 4S、iPhone 5还是iPhone 5C,纠结的果粉该选谁
beat365下载唯一官方网

iPhone 4S、iPhone 5还是iPhone 5C,纠结的果粉该选谁

08-02 👁️ 8162