import re
import pandas as pd
import os
df=pd.read_csv('饮料行业.csv')
p=re.compile('(?<=\d{4})(年报)|(年年报)')
f_names=[p.sub('年年度报告',f) for f in df.f_name]
df['f_name']=f_names; del p, f_names
def filter_links(words,df,include=True):
# No_words=len(words_exclude)
ls=[]
for word in words:
if include:
ls.append([word in f for f in df.f_name])
else:
ls.append([word not in f for f in df.f_name])
index=[]
for r in range(len(df)):
flag=not include
for c in range(len(words)):
if include:
flag=flag or ls[c][r]
else:
flag=flag and ls[c][r]
index.append(flag)
df2=df[index]
return(df2)
df_all=filter_links(['摘要','英文版','问询函','审计','财务','风险','债券','报告书'],df,include=False)
df_orig=filter_links(['(','('],df_all,include=False)
df_up=filter_links(['(','('],df_all,include=True)
df_up=filter_links(['取消'],df_up,include=False)
def sub_with_update(df_up,df_orig):
df_newest=df_orig.copy()
index_orig=[]
index_up=[]
for i, f in enumerate(df_orig.f_name):
for j,fn in enumerate(df_up.f_name):
if f in fn:
index_orig.append(i)
index_up.append(j)
#j=j+1
# i=i+1
#return((index_orig,index_updt))
for n in range(len(index_orig)):
i=index_orig[n]
j=index_up[n]
df_orig.iloc[i,-2]=df_up.iloc[j,-2]
#df_orig.iloc[i,-2]=df_up.iloc[j,-1]
#df_newest=df_orig
return(df_newest)
#return()
#sub_with_update(df_up, df_orig)
df_newest=sub_with_update(df_up, df_orig)
#index_orig,index_up= sub_with_update(df_up, df_orig)
df_all.sort_values(by=['f_name'],inplace=True,
ignore_index=True)
df_newest['公司简称']=[f[:4] for f in df_newest.f_name]
counts= df_newest['公司简称'].value_counts()
ten_company=[]
for cn in counts.index[:10]:
ten_company.append(filter_links([cn],df_newest))
if not os.path.exists('10companies'):
os.makedirs('10companies')
for df_com in ten_company:
cn=df_com['公司简称'].iloc[0]
df_com.to_csv('10companies/%s.csv' % cn)
ten_csv=os.listdir('10companies')
import re
import requests
import pandas as pd
import time
import os
os.chdir('/Users/chawheather/Documents/python/10companies')
f_1=os.listdir()
f_1.remove(f_1[2])
links= []
f_names=[]
#links = df['link']; f_names = df['f_name']
for f_2 in f_1:
f_3 = pd.read_csv(f_2)
for link in f_3['link']:
links.append(link)
for f_name in f_3['f_name']:
f_names.append(f_name)
def get_PDF_url(url):
r = requests.get(url);r.encoding = 'utf-8'; html = r.text
r.close() # 已获取html内容,结束connection
p = re.compile('<a href=(.*?)\s.*?>(.*?)</a>', re.DOTALL)
a = p.search(html) # 因第一个<a>即是目标标签,故用search
if a is None:
Warning('没有找到下载链接。请手动检查链接:%s' % url)
return()
else:
href = a.group(1); fname = a.group(2).strip()
href = r.url[:26] + href # 形成完整的链接
return((href,fname))
hrefs=[];fnames=[]
for link in links:
href,fname = get_PDF_url(link)
hrefs.append(href)
fnames.append(fname)
time.sleep(10)
df_final_links=pd.DataFrame({'href':hrefs,'fname':fnames})
df_final_links.to_csv('final_links饮料.csv')
import re
import requests
import pandas as pd
import time
df_final_links=pd.read_csv('final_links_饮料行业.csv')
f_names=df_final_links['f_name']
hrefs=df_final_links['href']
for i in range(len(hrefs)):
href=hrefs[i];f_name=f_names[i]
r = requests.get(href, allow_redirects=True)
open('%s' %f_name, 'wb').write(r.content)
time.sleep(10)
r.close()
import pdfplumber
file_path = r'/Users/chawheather/Documents/python/pdf/珠江啤酒:2011年年度报告.PDF'
with pdfplumber.open(file_path) as pdf:
page = pdf.pages[3]
print(page.extract_table())
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[30.52,35.62,34.74,33.49,35.23,35.16,35.42,37.63,40.39] #数据
name_list=['2010','2011','2012','2013','2014','2015','2016','2017','2018']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('珠江啤酒营业收入走势图')
plt.show()
#2018年,公司精酿啤酒体验中心、柔性生产线等创新项目成功运营,推进全产业链向中高端延伸;
#强化企业基础管理,促进企业提质增效;着力”双主业“协同发展,着力“双引擎”共同驱动,总部开发建设工作取得突破,智慧运营水平不断提高;
#优化资源配置,破除无效供给,不断优化产品结构;企业经济效益、发展质量显著提升。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[42,49,60,56,43,41,46,47,49] #数据
name_list=['2009','2010','2011','2012','2013','2014','2015','2016','2017']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('张裕A营业收入走势图')
plt.show()
#2013年,经济增速放缓、国外葡萄酒大量涌入,国内葡萄酒行业竞争加剧,特别是高端产品有效需求下降较大,给公司生产经营带来巨大压力。
#全年实现营业收入432,095万元,同比下降23.44%。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[3.64,4.16,4.41,4.75,4.50,3.98,3.91,3.57,3.62] #数据
name_list=['2009','2010','2011','2012','2013','2014','2015','2016','2017']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('西藏发展营业收入走势图')
plt.show()
#2012年收入的增长主要系因公司啤酒业务销售规模增长所致,报告期内,根据西藏自治区相关财税政策,公司获得了政府补助累计1298万元。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[1.84,2.30,3.18,3.11,4.38,3.68,3.38,2.73,3.16] #数据
name_list=['2009','2010','2011','2012','2013','2014','2015','2016','2017']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('深深宝A营业收入走势图')
plt.show()
#2013年,受全球经济复苏缓慢及经济大环境等多方面因素的影响,各消费类行业增长缓慢,食品饮料行业竞争尤为激烈。
#通过加强研发力度,研发产品与市场需求紧密对接;
#积极拓展主营业务,尤其是精品茶业务拓展的力度有所加大,在终端市场产生了一定的品牌效应;
#贸易销售量变动主要原因是报告期出口茶叶销量同比大幅增加。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[13.28,18.16,19.37,21.38,36.33,27.03,27.06,25.21,21.12,21.22,22.55,18.61] #数据
name_list=['2009','2010','2011','2012','2013','2014','2015','2016','2017','2018','2019','2020']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('承德露露营业收入走势图')
plt.show()
#2013年公司自核桃露、果仁核桃、花生露等新产品投放市场后,组建专门机构,克服各种困难,积极开拓市场,取得了预期效果。
#越来越多的消费者接受了公司产品,销售区域扩展很快,产品竞争力日益增强,为公司今后品牌发展,产能扩张,创造了有利条件。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[9.78,9.51,10.26,9.42,10.67,10.75,9.87,8.98] #数据
name_list=['2010','2012','2013','2014','2015','2016','2017','2018']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('金枫酒业营业收入走势图')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[180,258,283,290,276,261,263,266] #数据
name_list=['2009','2012','2013','2014','2015','2016','2017','2018']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('青岛啤酒营业收入走势图')
plt.show()
#2014年营业收入较上年度增加 2.68%,主要原因是本年度内公司积极开拓市场。
#及时调整了发展战略,在提高市场份额的同时,努力提升产品结构。
#在全国市场不断深化和推广“大客户+微观运营”的营销模式。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[3.3,3.61,3.65,3.25,2.49,2.12,2.26] #数据
name_list=['2009','2012','2013','2014','2015','2016','2017']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('莫高股份营业收入走势图')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[47.63,58.10,50.62,44.62,38.89,44.64,44.47,50.39,47.99] #数据
name_list=['2010','2012','2013','2014','2015','2016','2017','2019','2020']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('维维股份营业收入走势图')
plt.show()
#2012年豆奶及植物蛋白饮料保持稳定的收入,与上年相比略有增长。
#白酒生产方面受行业竞争、内部产品结构及销售策略改变等影响,白酒销售下降 20.53%;
#白酒产销量下降的主要原因为行业竞争及公司产品结构及销售策略调整的影响。
#焦炭产销量增长的主要原因为:2011年生产期为3个月,2012年为12个月。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
num_list=[108,142,147,134,138,154,164,172] #数据
name_list=['2010','2012','2013','2014','2015','2016','2017','2018']
plt.bar(range(len(num_list)), num_list,color='brown',tick_label=name_list)
plt.ylabel('营业收入(单位:亿元)')
plt.title('古越龙山营业收入走势图')
plt.show()
#2018年报告期内销量上升,使得营业收入增加所致。
#通过大型活动、重要赛事的赞助和冠名进行品牌推广;
#借力互联网+,实现产品终端促销管理模式的改变。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','承德露露','金枫酒业', '青岛啤酒', '古越龙山']
data=[40.39,21.22,8.98,266,172]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2018年营业收入对比(单位:亿元)')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','张裕A','西藏发展','深深宝A','承德露露','金枫酒业', '青岛啤酒', '莫高股份', '维维股份', '古越龙山']
data=[37.63,49,3.62,3.16,21.12,9.87,263,2.26,44.47,164]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2017年营业收入对比(单位:亿元)')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','张裕A','西藏发展','深深宝A','承德露露','金枫酒业', '青岛啤酒', '莫高股份', '维维股份', '古越龙山']
data=[35.42,47,3.57,2.73,25.21,10.75,261,2.12,44.54,154]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2016年营业收入对比(单位:亿元)')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','张裕A','西藏发展','深深宝A','承德露露','金枫酒业', '青岛啤酒', '莫高股份', '维维股份', '古越龙山']
data=[36.16,46,3.91,3.38,27.06,10.67,276,2.49,38.89,138]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2015年营业收入对比(单位:亿元)')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','张裕A','西藏发展','深深宝A','承德露露','金枫酒业', '青岛啤酒', '莫高股份', '维维股份', '古越龙山']
data=[35.32,41,3.98,3.68,27.03,9.42,290,3.25,44.62,134]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2014年营业收入对比(单位:亿元)')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','张裕A','西藏发展','深深宝A','承德露露','金枫酒业', '青岛啤酒', '莫高股份', '维维股份', '古越龙山']
data=[33.49,43,4.5,4.38,36.33,10.26,283,3.65,50.62,147]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2013年营业收入对比(单位:亿元)')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','张裕A','西藏发展','深深宝A','承德露露','金枫酒业', '青岛啤酒', '莫高股份', '维维股份', '古越龙山']
data=[34.74,56,4.75,3.11,21.38,9.51,258,3.61,58.10,142]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2012年营业收入对比(单位:亿元)')
plt.show()
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
companies_name = ['珠江啤酒','张裕A','西藏发展','深深宝A','承德露露','金枫酒业', '维维股份', '古越龙山']
data=[30.52,49,4.16,2.3,18.16,9.78,47.63,108]
plt.barh(range(len(data)), data, tick_label=companies_name, color='#6699CC')
plt.title('2010年营业收入对比(单位:亿元)')
plt.show()
#总体来看,青岛啤酒在本次所选取的公司中每一年营业收入都是最高。
#青岛啤酒为中国历史最悠久的啤酒生产企业,高度重视产品质量,青岛啤酒产品多次在国内外质量评比中荣获冠军,并在国内外消费者中获得了广泛的好评。
#根据以上图表来看,行业内大多数公司在2012年、2013年营业收入较为可观。
#2012年是中国经济从“次萧条”到“复苏重现”的一年。在消费持续逆势上扬、基础建设投资大幅增长、房地产政策微调带来的“刚需”释放、货币政策和财政政策的持续放松以及全球市场情绪稳定带来的外需稳定等因素的作用下,
#中国宏观经济开始在2012年9月出现“触底反弹”,消费持续增长、外需小幅回升、投资持续加码等因素的作用下,重返复苏的轨道。