www.154.net

导航菜单

tushare爬取上证指数,Python启用Tushare抓取上证综指并且做好基本剖析实例

引:

Python启用Tushare抓取上证综指并且做好基本剖析实例

Python启用Tushare抓取上证综指并且做好基本剖析实例

TuShare相关概念股数据信息用不上?抓取新浪网相关概念股

Python启用Tushare抓取上证综指并且做好基本剖析实例

  作者:博观厚积Python发烧友小区专栏作者

1.有关Tusahre

  在界面左边,能够 见到可以抓取许多 数据信息。

2.Tushare的安裝与应用

  在Tushare界面有对其安裝与应用的详细介绍:

基本的启用方式为:

  ts.get_hist_data'600848'#一次性获得所有日k线数据信息获得結果:

  第一列是时间,后面的是各种价钱,包含开盘价格、最高成交价、收盘价格这些,实际在Tushare里面都是有详解。

3.启用Tushare抓取上证综指并且做好数据可视化

  上证综指的编码为00001,在这儿抓取2017-01-01到2018-03-31期内的数据信息,并对其股票涨幅,也就是回报率开展基本数据可视化。编码以下:

  能够 见到转来到上证综指的各种价钱数据信息及其最终turnover的股票换手率。可是有一个难题便是数据信息的date的降序的,今起从2018三月往17年一月排序的,必须排列。

  sz=df.sort_indexaxis=0,ascending=True#对index开展升序排序

  sz_return=sz[['p_change']]#选择股票涨幅数据信息

  train=sz_return[0:255]#区划训练集

  test=sz_return[255:]#检测集

#对训练集与检测集各自做数据图

  深蓝色为训练集编码序列起伏图,鲜红色为检测集编码序列起伏图。

4.对上证综指回报率做基本时间序列分析剖析

(1)立即用最后一个值做为检测集的估计值

  深蓝色为训练集编码序列,翠绿色为检测集编码序列,鲜红色为估计值编码序列,获得RMSE为2.7924。

(2)立即用训练集均值做为检测集的估计值

  y_hat_avg=test.copy#copytest目录

  y_hat_avg['avg_forecast']=train['p_change'].mean#求平均值

printrms

获得RMSE为2.4192。

  (3)立即用移动平均法最后一个值做为检测集的估计值

  #30期的移动平均法,最终一个数做为test的估计值

printrms

获得RMSE为2.3849。

  能够 见到,最终移动平均法的均方误差最少,预测分析实际效果最好是。

Python启用Tushare抓取上证综指并且做好基本剖析实例

1.有关Tusahre

  在界面左边,能够 见到可以抓取许多 数据信息。

2.Tushare的安裝与应用

  在Tushare界面有对其安裝与应用的详细介绍:

基本的启用方式为:

  ts.get_hist_data'600848'#一次性获得所有日k线数据信息获得結果:

  第一列是时间,后面的是各种价钱,包含开盘价格、最高成交价、收盘价格这些,实际在Tushare里面都是有详解。

3.启用Tushare抓取上证综指并且做好数据可视化

  上证综指的编码为00001,在这儿抓取2017-01-01到2018-03-31期内的数据信息,并对其股票涨幅,也就是回报率开展基本数据可视化。编码以下:

  df.head10能够 见到转来到上证综指的各种价钱数据信息及其最终turnover的股票换手率。可是有一个难题便是数据信息的date的降序的,今起从2018三月往17年一月排序的,必须排列。

  sz=df.sort_indexaxis=0,ascending=True#对index开展升序排序

  sz_return=sz[['p_change']]#选择股票涨幅数据信息

  train=sz_return[0:255]#区划训练集

  test=sz_return[255:]#检测集

#对训练集与检测集各自做数据图

  plt.show深蓝色为训练集编码序列起伏图,鲜红色为检测集编码序列起伏图。

4.对上证综指回报率做基本时间序列分析剖析

(1)立即用最后一个值做为检测集的估计值

  train.index=pd.to_datetimetrain.index#变换時间标识符文件格式以便捷做图

  dd=np.asarraytrain.p_change#z转化成空间向量,便于添加y_hat中

#测算RMSE

  printrms深蓝色为训练集编码序列,翠绿色为检测集编码序列,鲜红色为估计值编码序列,获得RMSE为2.7924。

(2)立即用训练集均值做为检测集的估计值

  y_hat_avg=test.copy#copytest目录

  y_hat_avg['avg_forecast']=train['p_change'].mean#求平均值

  printrms获得RMSE为2.4192。

  (3)立即用移动平均法最后一个值做为检测集的估计值

  #30期的移动平均法,最终一个数做为test的估计值

  printrms获得RMSE为2.3849。

  能够 见到,最终移动平均法的均方误差最少,预测分析实际效果最好是。

TuShare相关概念股数据信息用不上?抓取新浪网相关概念股

  TuShare包内有那么一个涵数,用于获得每只个股的定义的:

  ts.get_concept_classifiedTuShare包在文本文档里也表明了,抓取的是网易财经的数据信息。老伙记,网易财经也不是素食的,到了反爬虫体制,一下子禁掉IP。

  因而,文中运用Selenium包,动态性抓取网易财经的相关概念股信息内容。

  fromseleniumimportwebdriver最先浏览网易财经的相关概念股网页页面:

#浏览网易财经概念板块

  dr.geturl随后将更新设为手动式更新,避免 抓取全过程中网页页面升级造成抓取的內容不正确。

#将更新设为手动式更新

  dr.find_element_by_xpath'htmlbodydiv[@class=";wrap";]div[@class=";tabsOuter";]divinput[@value=";手动式更新";]'.click刚开始抓取:

#刚开始抓取

  dr.find_element_by_xpath'*[@id=";list_pages_top2";]a[containstext,";下一页";]'.click

  dr.quit获得的結果储存在stock_concept_d这一词典中,这一词典以股票号为键,值是该个股相匹配的定义目录。一只股票将会有好几个定义。

  文中仅仅解读怎样抓取个股定义数据信息,假如要运用这一数据信息,事后还需自行解决一下。

本文仅代表作者观点,不代表www.154.net立场。

本文系作者授权发表,未经许可,不得转载。

来源:互联网

本文地址:/szzscx/1431.html

留言与评论 (共有 条评论)
验证码: