Stack Overflow上问题标签的分析

一、数据说明

stackoverflow 作为全球最大的IT领域的问答类网站,其上面的问题在很大程度上可以反应目前IT从业人员的技术栈。为了对广大IT从业人员关心的技术栈做一个分析。下面从 stackoverflow 上按照问题的得分从高到低爬取了 10185 道题,爬取的内容包括问题名称、问题标签以及问题的链接,爬取到的内容示例如下:
![[Pasted image 20220426171934.png]]

下面对爬取到的内容做一个分析。

二、数据分析

1. 整体分析

对所有问题的 tag 做一个整体的汇总,然后按出现的次数从高到低选取 10 个 tag,对数据进行可视化之后,得到的饼图如下图所示:
![[Pasted image 20220426172538.png]]

从上图中可以看出,前十名分别是 javascriptpythonjavagitC#androidhtmlcssstringjqueryjavascript 排名第一也恰恰反应了它的无处不在;人工智能和大数据领域的兴起带火了 python,同时表现出了非常猛的上升趋势;java 作为常年霸榜的开发语言,排名第三也在情理之中。

2. 前100问题的分析

前面对所有的问题进行了一个分析,下面对前面的 100 个问题进行分析,然后按出现的次数从高到低选取 10 个 tag,对数据进行可视化之后,得到的饼图如下图所示:
![[Pasted image 20220426175352.png]]
从上图中可以看出,前十名的 tag 中,版本控制相关的就有 3 个,这说明版本控制工具的使用在日常工作中占的比重还是蛮大的。

三、总结

上面便是对获取到的数据做的一个简短的分析,希望可以给到广大IT从业人员一些技术选择方面的知道。


版权声明:本文为mr_songw原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。