Python爬虫可以说是好玩又好用了。现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中。需求有了,剩下的就是实现了。
在开始之前,保证已经安装好了MySQL并需要启动本地MySQL数据库服务。提到安装MySQL数据库,前两天在一台电脑上安装MySQL5.7时,死活装不上,总是提示缺少Visual Studio 2013 Redistributable,但是很疑惑,明明已经安装了呀,原来问题出在版本上,更换一个版本后就可以了。小问题大苦恼,不知道有没有人像我一样悲催。
言归正传,启动本地数据库服务:
用管理员身份打开“命令提示符(管理员)”,然后输入“net start mysql57”(我把数据库服务名定义为mysql57了,安装MySQL时可以修改)就可以开启服务了。注意使用管理员身份打开小黑框,如果不是管理员身份,我这里会提示没有权限,大家可以试试。
启动服务之后,我们可以选择打开“MySQL 5.7 Command Line Client”小黑框,需要先输入你的数据库的密码,安装的时候定义过,在这里可以进行数据库操作。

下面开始上正餐。
一、Python爬虫抓取网页数据并保存到本地数据文件中
首先导入需要的数据模块,定义函数:
#导入需要使用到的模块
importurllibimportreimportpandas as pdimportpymysqlimportos#爬虫抓取网页函数
defgetHtml(url):
html=urllib.request.urlopen(url).read()
html= html.decode('gbk')returnhtml#抓取网页股票代码函数
defgetStackCode(html):
s= r'
'pat=re.compile(s)code=pat.findall(html)return code
Url = 'http://quote.eastmoney.com/stocklist.html'#东方财富网股票数据连接地址
filepath = 'D:\\data\\'#定义数据文件保存路径#实施抓取
code =getStackCode(getHtml(Url))#获取所有股票代码(以6开头的,应该是沪市数据)集合
CodeList =[]for item incode:if item[0]=='6':
CodeList.append(item)#抓取数据并保存到本地csv文件
for code inCodeList:print('正在获取股票%s数据'%code)
以上代码实现了爬虫网页抓取股票数据,并保存到本地文件中。关于爬虫的东西,有很多资料可以参考,大都是一个套路,不再多说。同时,本文实现过程中也参考了很多的网页资源,在此对所有原创者表示感谢!
先看下抓取的结果。CodeList是抓取到的所有股票代码的集合,我们看到它共包含1416条元素,即1416支股票数据。因为股票太多,所以抓取的是以6开头的,貌似是沪市股票数据(原谅我不懂金融)。

抓取到的股票数据会分别存储到csv文件中,一只股票数据一个文件。理论上会有1416个csv文件,和股票代码数一致。但原谅我的渣网速,下载一个都费劲,也是呵呵了。


其实和人工手动下载也没什么区别了,硬要说区别,那就是解放了劳动力,提高了生产力(怎么听起来像政治?)。
name = 'xxxx'password= 'xxxx' #替换为自己的用户名和密码
db = pymysql.connect('localhost', name, password, charset='utf8')
其中,数据库名称(name)和密码(password)是安装MySQL时设置的。
sqlSentence2 = "use stockDataBase;"cursor.execute(sqlSentence2)
在首次运行的时候一般都会正常创建数据库,但如果再次运行,因数据库已经存在,那么跳过创建,继续往下执行。创建好数据库后,选择使用刚刚创建的数据库,在该数据库中存储数据表。
fileList = os.listdir(filepath)
print('正在存储stock_%s'% fileName[0:6])
length=len(data)for i inrange(0, length):
record=tuple(data.loc[i])#插入数据语句
sqlSentence4= "insert into stock_%s" % fileName[0:6] + "(日期, 股票代码, 名称, 收盘价, 最高价, 最低价, 开盘价,\
前收盘, 涨跌额, 涨跌幅, 换手率, 成交量, 成交金额, 总市值, 流通市值) \
sqlSentence4 = sqlSentence4.replace('nan','null').replace('None','null').replace('none','null')
cursor.execute(sqlSentence4)except:#如果以上插入过程出错,跳过这条数据记录,继续往下进行
使用'gbk'编码,默认应该是'utf8',但好像不支持中文。
文本文件中,包含有空值、None、none等不标准化数据,这里全部替换为null了,即数据库的空值。
不关闭数据库连接,就无法在MySQL端进行数据库的查询等操作,相当于数据库被占用。
db = pymysql.connect('localhost', name, password, 'stockDataBase')
cursor.execute('select * from stock_600000')
results=cursor.fetchall()for row inresults:print(row)#关闭
以上逐条打印,会凌乱到死的。也可以在MySQL端查看,先选中数据库:use stockDatabase;,然后查询:select * from stock_600000;,结果大概就是下面这个样子了:

importurllibimportreimportpandas as pdimportpymysqlimportos#爬虫抓取网页函数
html=urllib.request.urlopen(url).read()
html= html.decode('gbk')returnhtml#抓取网页股票代码函数