使用R语言分析告示牌百强单曲榜上的歌曲特征

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

使用R语言分析告示牌百强单曲榜上的歌曲特征

编者按:数据科学家Rosebud Anwuri使用R语言分析了告示牌百强单曲榜上的歌曲特征,以揭示过去60年来流行音乐的演变。

你从“年长者”那里最常听到的关于现代流行乐的看法是什么?一般来说是这个:“你们的音乐太吵了,缺乏内容。”他们喜欢谈论“古早”年代,有意义的歌曲,有灵魂的歌手,催人泪下的低音吉他。

这两者差别很大。然而,需要进行一些数据分析才能得出一般结论。作为千禧一代和数据科学家,我对此很感兴趣。“伟大”的音乐的标准真改变了那么多?是声音、歌词还是“消息”改变了?如果它们改变了,它们具体是如何改变的?

我将使用告示牌百强单曲榜(Billboards Hot 100)和Spotify的API作为数据来源,仔细查看流行音乐在过去六十年来的变化,并找出现在的流行音乐和以前的不同之处。

我的方法

在本文中,我所说的“伟大音乐”指进入告示牌百强单曲榜的音乐。我在GitHub上找到了相应的数据集kevinschaich/billboard-top-100-lyrics。这一数据集中包含许多有趣的特征,例如情感(Sentiment)、迷雾指数(估计在第一遍阅读时理解文本所需的正式教育年限)、单词数、重复单词/词组数。此外,Spotify的API提供了一个有趣的接口getaudiofeatures,其中提供了很多音乐特征,例如响度、乐器性(使用乐器的程度)、活力、现场性(现场是否有观众)、语音性、时长等。加上这些,我收集的1950年到2015年的告示牌百强单曲,总共有30项特征。

这些特征的描述可以在GitHub仓库的README文件和Spotify的API文档中查到,我也会在后文解释其中的部分特征。

我最初决定在这个项目中使用Python,某种程度上说,我确实用了Python。在我数据收集的第一次迭代的时候,我使用了Python的pandas和spotipy这两个库。

然而,随着项目的进行,我重新审视了我所用的方法,找到了一个更有趣的数据集。为此,

相关文档
最新文档