用Python做股市数据分析（一）-清一色财经

这篇博文是用Python分析股市数据系列两部中的第一部，内容基于我犹他大学数学3900 (数据科学)的课程。在这些博文中，我会讨论一些基础知识。比如如何用pandas从雅虎财经获得数据，可视化股市数据，平局数指标的定义，设计移动平均交汇点分析移动平均线的方法，回溯测试，基准分析法。

这篇博文是用Python分析股市数据系列两部中的第一部，内容基于我犹他大学数学3900 (数据科学)的课程。在这些博文中，我会讨论一些基础知识。比如如何用pandas从雅虎财经获得数据，可视化股市数据，平局数指标的定义，设计移动平均交汇点分析移动平均线的方法，回溯测试，基准分析法。最后一篇博文会包含问题以供练习。第一篇博文会包含平局数指标以及之前的内容。

注意：本文仅代表作者本人的观点。文中的内容不应该被当做经济建议。我不对文中代码负责，取用者自己负责。

引言

金融业使用高等数学和统计已经有段时日。早在八十年代以前，银行业和金融业被认为是“枯燥”的;投资银行跟商业银行是分开的,业界主要的任务是处理“简单的”(跟当今相比)的金融职能，例如贷款。里根政府的减少调控和数学的应用，使该行业从枯燥的银行业变为今天的模样。在那之后，金融跻身科学，成为推动数学研究和发展的力量。例如数学上一个重大进展是布莱克-舒尔斯公式的推导。它被用来股票定价 (一份赋予股票持有者以一定的价格从股票发行者手中买入和卖出的合同)。但是, 不好的统计模型，包括布莱克-舒尔斯模型，背负了部分导致2008金融危机的骂名。

近年来，计算机科学加入了高等数学的阵营，为金融和证券交易(为了盈利而进行的金融产品买入卖出行为)带来了革命性的变化。如今交易主要由计算机来完成：算法能以人类难以达到的速度做出交易决策(参看光速的限制已经成为系统设计中的瓶颈)。机器学习和数据挖掘也被越来越广泛的用到金融领域中，目测这个势头会保持下去。事实上很大一部分的算法交易都是高频交易(HFT)。虽然算法比人工快，但这些技术还是很新，而且被应用在一个以不稳定，高风险著称的领域。据一条被黑客曝光的白宫相关媒体推特表明HFT应该对2010 闪电式崩盘 and a 2013 闪电式崩盘负责。

不过这节课不是关于如何利用不好的数学模型来摧毁证券市场。相反的，我将提供一些基本的Python工具来处理和分析股市数据。我会讲到移动平均值，如何利用移动平均值来制定交易策略，如何制定进入和撤出股市的决策，记忆如何利用回溯测试来评估一个决策。

免责申明：这不是投资建议。同时我私人完全没有交易经验(文中相关的知识大部分来自我在盐湖城社区大学参加的一个学期关于股市交易的课程)!这里仅仅是基本概念知识，不足以用于实际交易的股票。股票交易可以让你受到损失(已有太多案例)，你要为自己的行为负责。

获取并可视化股市数据

从雅虎金融获取数据

在分析数据之前得先得到数据。股市数据可以从Yahoo! Finance、 Google Finance以及其他的地方拿到。同时，pandas包提供了轻松从以上网站获取数据的方法。这节课我们使用雅虎金融的数据。

下面的代码展示了如何直接创建一个含有股市数据的DataFrame。(更多关于远程获取数据的信息，点击这里(http://pandas.pydata.org/pandas-docs/stable/remote_data.html))

importpandasaspd
importpandas.io.dataasweb#Packageandmodulesforimportingdata;thiscodemaychangedependingonpandasversion
importdatetime
#Wewilllookatstockpricesoverthepastyear,startingatJanuary1,2016
start=datetime.datetime(2016,1,1)
end=datetime.date.today()
#Let'sgetApplestockdata;Apple'stickersymbolisAAPL
#Firstargumentistheserieswewant,secondisthesource("yahoo"forYahoo!Finance),thirdisthestartdate,fourthistheenddate
apple=web.DataReader("AAPL","yahoo",start,end)
type(apple)

C:\Anaconda3\lib\site-packages\pandas\io\data.py:35:FutureWarning:
Thepandas.io.datamoduleismovedtoaseparatepackage(pandas-datareader)andwillberemovedfrompandasinafutureversion.
Afterinstallingthepandas-datareaderpackage(https://github.com/pydata/pandas-datareader),youcanchangetheimport``frompandas.ioimportdata,wb``to``frompandas_datareaderimportdata,wb``.
FutureWarning)
pandas.core.frame.DataFrame

apple.head()

让我们简单说一下数据内容。Open是当天的开始价格(不是前一天闭市的价格);high是股票当天的最高价;low是股票当天的最低价;close是闭市时间的股票价格。Volume指交易数量。Adjust close是根据法人行为调整之后的闭市价格。虽然股票价格基本上是由交易者决定的，stock splits (拆股。指上市公司将现有股票一拆为二，新股价格为原股的一半的行为)以及dividends(分红。每一股的分红)同样也会影响股票价格，也应该在模型中被考虑到。

可视化股市数据

获得数据之后让我们考虑将其可视化。下面我会演示如何使用matplotlib包。值得注意的是appleDataFrame对象有一个plot()方法让画图变得更简单。

importmatplotlib.pyplotasplt#Importmatplotlib
#ThislineisnecessaryfortheplottoappearinaJupyternotebook
%matplotlibinline
#ControlthedefaultsizeoffiguresinthisJupyternotebook
%pylabinline
pylab.rcParams['figure.figsize']=(15,9)#Changethesizeofplots
apple["AdjClose"].plot(grid=True)#PlottheadjustedclosingpriceofAAPL

Populatingtheinteractivenamespacefromnumpyandmatplotlib

线段图是可行的，但是每一天的数据至少有四个变量(开市，股票最高价，股票最低价和闭市)，我们希望找到一种不需要我们画四条不同的线就能看到这四个变量走势的可视化方法。一般来说我们使用烛柱图(也称为日本阴阳烛图表)来可视化金融数据，烛柱图最早在18世纪被日本的稻米商人所使用。可以用matplotlib来作图，但是需要费些功夫。

你们可以使用我实现的一个函数更容易地画烛柱图，它接受pandas的data frame作为数据来源。(程序基于这个例子, 你可以从这里找到相关函数的文档。)

frommatplotlib.datesimportDateFormatter,WeekdayLocator,\
DayLocator,MONDAY
frommatplotlib.financeimportcandlestick_ohlc
defpandas_candlestick_ohlc(dat,stick="day",otherseries=None):
"""
:paramdat:pandasDataFrameobjectwithdatetime64index,andfloatcolumns"Open","High","Low",and"Close",likelycreatedviaDataReaderfrom"yahoo"
:paramstick:Astringornumberindicatingtheperiodoftimecoveredbyasinglecandlestick.Validstringinputsinclude"day","week","month",and"year",("day"default),andanynumericinputindicatesthenumberoftradingdaysincludedinaperiod
:paramotherseries:Aniterablethatwillbecoercedintoalist,containingthecolumnsofdatthatholdotherseriestobeplottedaslines
ThiswillshowaJapanesecandlestickplotforstockdatastoredindat,alsoplottingotherseriesifpassed.
"""
mondays=WeekdayLocator(MONDAY)#majorticksonthemondays
alldays=DayLocator()#minorticksonthedays
dayFormatter=DateFormatter('%d')#e.g.,12
#CreateanewDataFramewhichincludesOHLCdataforeachperiodspecifiedbystickinput
transdat=dat.loc[:,["Open","High","Low","Close"]]
if(type(stick)==str):
ifstick=="day":
plotdat=transdat
stick=1#Usedforplotting
elifstickin["week","month","year"]:
ifstick=="week":
transdat["week"]=pd.to_datetime(transdat.index).map(lambdax:x.isocalendar()[1])#Identifyweeks
elifstick=="month":
transdat["month"]=pd.to_datetime(transdat.index).map(lambdax:x.month)#Identifymonths
transdat["year"]=pd.to_datetime(transdat.index).map(lambdax:x.isocalendar()[0])#Identifyyears
grouped=transdat.groupby(list(set(["year",stick])))#Groupbyyearandotherappropriatevariable
plotdat=pd.DataFrame({"Open":[],"High":[],"Low":[],"Close":[]})#Createemptydataframecontainingwhatwillbeplotted
forname,groupingrouped:
plotdat=plotdat.append(pd.DataFrame({"Open":group.iloc[0,0],
"High":max(group.High),
"Low":min(group.Low),
"Close":group.iloc[-1,3]},
index=[group.index[0]]))
ifstick=="week":stick=5
elifstick=="month":stick=30
elifstick=="year":stick=365
elif(type(stick)==intandstick>=1):
transdat["stick"]=[np.floor(i/stick)foriinrange(len(transdat.index))]
grouped=transdat.groupby("stick")
plotdat=pd.DataFrame({"Open":[],"High":[],"Low":[],"Close":[]})#Createemptydataframecontainingwhatwillbeplotted
forname,groupingrouped:
plotdat=plotdat.append(pd.DataFrame({"Open":group.iloc[0,0],
"High":max(group.High),
"Low":min(group.Low),
"Close":group.iloc[-1,3]},
index=[group.index[0]]))
else:
raiseValueError('Validinputstoargument"stick"includethestrings"day","week","month","year",orapositiveinteger')
#Setplotparameters,includingtheaxisobjectaxusedforplotting
fig,ax=plt.subplots()
fig.subplots_adjust(bottom=0.2)
ifplotdat.index[-1]-plotdat.index[0]<pd.Timedelta('730days'):
weekFormatter=DateFormatter('%b%d')#e.g.,Jan12
ax.xaxis.set_major_locator(mondays)
ax.xaxis.set_minor_locator(alldays)
else:
weekFormatter=DateFormatter('%b%d,%Y')
ax.xaxis.set_major_formatter(weekFormatter)
ax.grid(True)
#Createthecandelstickchart
candlestick_ohlc(ax,list(zip(list(date2num(plotdat.index.tolist())),plotdat["Open"].tolist(),plotdat["High"].tolist(),
plotdat["Low"].tolist(),plotdat["Close"].tolist())),
colorup="black",colordown="red",width=stick*.4)
#Plototherseries(suchasmovingaverages)aslines
ifotherseries!=None:
iftype(otherseries)!=list:
otherseries=[otherseries]
dat.loc[:,otherseries].plot(ax=ax,lw=1.3,grid=True)
ax.xaxis_date()
ax.autoscale_view()
plt.setp(plt.gca().get_xticklabels(),rotation=45,horizontalalignment='right')
plt.show()
pandas_candlestick_ohlc(apple)

烛状图中黑色线条代表该交易日闭市价格高于开市价格(盈利)，红色线条代表该交易日开市价格高于闭市价格(亏损)。刻度线代表当天交易的最高价和最低价(影线用来指明烛身的哪端是开市，哪端是闭市)。烛状图在金融和技术分析中被广泛使用在交易决策上，利用烛身的形状，颜色和位置。我今天不会涉及到策略。

我们也许想要把不同的金融商品呈现在一张图上：这样我们可以比较不同的股票，比较股票跟市场的关系，或者可以看其他证券，例如交易所交易基金(ETFs)。在后面的内容中，我们将会学到如何画金融证券跟一些指数(移动平均)的关系。届时你需要使用线段图而不是烛状图。(试想你如何重叠不同的烛状图而让图表保持整洁?)

下面我展示了不同技术公司股票的数据，以及如何调整数据让数据线聚在一起。

microsoft=web.DataReader("MSFT","yahoo",start,end)
google=web.DataReader("GOOG","yahoo",start,end)
#BelowIcreateaDataFrameconsistingoftheadjustedclosingpriceofthesestocks,firstbymakingalistoftheseobjectsandusingthejoinmethod
stocks=pd.DataFrame({"AAPL":apple["AdjClose"],
"MSFT":microsoft["AdjClose"],
"GOOG":google["AdjClose"]})
stocks.head()

stocks.plot(grid=True)

这张图表的问题在哪里呢?虽然价格的绝对值很重要(昂贵的股票很难购得，这不仅会影响它们的波动性，也会影响你交易它们的难易度)，但是在交易中，我们更关注每支股票价格的变化而不是它的价格。Google的股票价格比苹果微软的都高，这个差别让苹果和微软的股票显得波动性很低，而事实并不是那样。

一个解决办法就是用两个不同的标度来作图。一个标度用于苹果和微软的数据;另一个标度用来表示Google的数据。

stocks.plot(secondary_y=["AAPL","MSFT"],grid=True)

一个“更好”的解决方法是可视化我们实际关心的信息：股票的收益。这需要我们进行必要的数据转化。数据转化的方法很多。其中一个转化方法是将每个交易日的股票交个跟比较我们所关心的时间段开始的股票价格相比较。也就是：

这需要转化stock对象中的数据，操作如下：

#df.apply(arg)willapplythefunctionargtoeachcolumnindf,andreturnaDataFramewiththeresult
#Recallthatlambdaxisananonymousfunctionacceptingparameterx;inthiscase,xwillbeapandasSeriesobject
stock_return=stocks.apply(lambdax:x/x[0])
stock_return.head()

stock_return.plot(grid=True).axhline(y=1,color="black",lw=2)

[[195993]]

这个图就有用多了。现在我们可以看到从我们所关心的日期算起，每支股票的收益有多高。而且我们可以看到这些股票之间的相关性很高。它们基本上朝同一个方向移动，在其他类型的图表中很难观察到这一现象。

我们还可以用每天的股值变化作图。一个可行的方法是我们使用后一天$t + 1$和当天$t$的股值变化占当天股价的比例：

我们也可以比较当天跟前一天的价格：

以上的公式并不相同，可能会让我们得到不同的结论，但是我们可以使用对数差异来表示股票价格变化：

(这里的

是自然对数,我们的定义不完全取决于使用

还是

.) 使用对数差异的好处是该差异值可以被解释为股票的百分比差异，但是不受分母的影响。

下面的代码演示了如何计算和可视化股票的对数差异：

#Let'suseNumPy'slogfunction,thoughmath'slogfunctionwouldworkjustaswell
importnumpyasnp
stock_change=stocks.apply(lambdax:np.log(x)-np.log(x.shift(1)))#shiftmovesdatesbackby1.
stock_change.head()

stock_change.plot(grid=True).axhline(y=0,color="black",lw=2)

你更倾向于哪种转换方法呢?从相对时间段开始日的收益差距可以明显看出不同证券的总体走势。不同交易日之间的差距被用于更多预测股市行情的方法中，它们是不容被忽视的。

移动平均值

图表非常有用。在现实生活中，有些交易人在做决策的时候几乎完全基于图表(这些人是“技术人员”，从图表中找到规律并制定交易策略被称作技术分析，它是交易的基本教义之一。)下面让我们来看看如何找到股票价格的变化趋势。

一个q天的移动平均值(用

来表示)定义为：对于某一个时间点t，它之前q天的平均值。

移动平均值可以让一个系列的数据变得更平滑，有助于我们找到趋势。q值越大，移动平均对短期的波动越不敏感。移动平均的基本目的就是从噪音中识别趋势。快速的移动平均有偏小的q，它们更接近股票价格;而慢速的移动平均有较大的q值，这使得它们对波动不敏感从而更加稳定。

pandas提供了计算移动平均的函数。下面我将演示使用这个函数来计算苹果公司股票价格的20天(一个月)移动平均值，并将它跟股票价格画在一起。

apple["20d"]=np.round(apple["Close"].rolling(window=20,center=False).mean(),2)
pandas_candlestick_ohlc(apple.loc['2016-01-04':'2016-08-07',:],otherseries="20d")

注意到平均值的起始点时间是很迟的。我们必须等到20天之后才能开始计算该值。这个问题对于更长时间段的移动平均来说是个更加严重的问题。因为我希望我可以计算200天的移动平均，我将扩展我们所得到的苹果公司股票的数据，但我们主要还是只关注2016。

start=datetime.datetime(2010,1,1)
apple=web.DataReader("AAPL","yahoo",start,end)
apple["20d"]=np.round(apple["Close"].rolling(window=20,center=False).mean(),2)
pandas_candlestick_ohlc(apple.loc['2016-01-04':'2016-08-07',:],otherseries="20d")

你会发现移动平均比真实的股票价格数据平滑很多。而且这个指数是非常难改变的：一支股票的价格需要变到平局值之上或之下才能改变移动平均线的方向。因此平均线的交叉点代表了潜在的趋势变化，需要加以注意。

交易者往往对不同的移动平均感兴趣，例如20天，50天和200天。要同时生成多条移动平均线也不难：

apple["50d"]=np.round(apple["Close"].rolling(window=50,center=False).mean(),2)
apple["200d"]=np.round(apple["Close"].rolling(window=200,center=False).mean(),2)
pandas_candlestick_ohlc(apple.loc['2016-01-04':'2016-08-07',:],otherseries=["20d","50d","200d"])

20天的移动平均线对小的变化非常敏感，而200天的移动平均线波动最小。这里的200天平均线显示出来总体的熊市趋势：股值总体来说一直在下降。20天移动平均线所代表的信息是熊市牛市交替，接下来有可能是牛市。这些平均线的交叉点就是交易信息点，它们代表股票价格的趋势会有所改变因而你需要作出能盈利的相应决策。

更新：该文章早期版本提到算法交易跟高频交易是一个意思。但是网友评论指出这并不一定：算法可以用来进行交易但不一定就是高频。高频交易是算法交易中间很大的一部分，但是两者不等价。

©本文为清一色官方代发，观点仅代表作者本人，与清一色无关。清一色对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议，请读者仅作参考，并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络，如侵犯到著作权人的权利，请与我们联系（微信/QQ:1074760229）。转载请注明出处：清一色财经