csv_play.py
# -*- coding: utf-8 -*-
"""
Created on Sat Oct 9 18:51:50 2021
@author: Longan XM
"""
# import csv
# with open('财经大学列表.csv', mode='r',
# newline='', encoding='utf-8') as csvfile:
# csvreader = csv.reader(csvfile)
# for row in csvreader:
# print('%s位于 %s 省/市 %s 市/区' % tuple(row))
# import csv
# with open('aNewFile.csv', mode='w', newline='',
# encoding='utf-8') as f:
# writer = csv.writer(f)
# writer.writerow(['吴燕丰','男','江西'])
# writer.writerow(['Maxwell','Male','Scotland'])
# writer.writerow(['Turing','Male','England'])
# writer.writerow(['Donald Knuth','Male','America'])
# writer.writerow(['Marie Curie','Female','Poland'])
# import pandas as pd
# df = pd.read_csv('aNewFile.csv', header=None)
# df.head(2)
# df.tail(2)
import pandas as pd
df = pd.DataFrame({
'姓名': ['吴燕丰','Maxwell','Turing','Donald Knuth','Marie Curie'],
'性别': ['男','Male','Male','Male','Female'],
'籍贯': ['江西','Scotland','England','America','Poland']
})
df.to_csv('saved_from_DataFrame.csv')
email.py
# -*- coding: utf-8 -*-
"""
Created on Thu Sep 30 20:37:25 2021
@author: Longan XM
"""
import re
p = re.compile('\w+(?:\.\w+)*@\w+(?:\.com|\.edu)(?:\.cn)?')
email = '''
把自己的邮箱发进来
吴燕丰
Email
丁涛
第1楼
2994937548@qq.com
张佳静
第2楼
1983481084@qq.com
余文盛
第3楼
2321251147@qq.com
张嘉雪
第4楼
806265580@qq.com
贾玉萍
第5楼
1024057473@qq.com
李方诺
第6楼
719422505@qq.com
梅峻滔
第7楼
1040986868@qq.com
刘鑫
第8楼
425251974@qq.com
李晓彤
第9楼
1042660274@qq.com
万鑫琦
第10楼
1540421302@qq.com
吴燕丰
第11楼
wuyanfeng@jxufe.edu.cn
齐宏鑫
第12楼
2198208858@qq.com
贾烨玮
第13楼
418567800@qq.com
丰亦成
第14楼
330511825@qq.com
耿鑫艳
第15楼
2327851562@qq.com
李梦菲
第16楼
1632948333@qq.com
杨子妮
第17楼
1654924582@qq.com
陈学香
第18楼
1654555150@qq.com
杨天明
第19楼
yzqnmg@foxmail.com
胡昕宇
第20楼
Hubery.work@qq.com
刘宸虎
第21楼
961996676@qq.com
宗帼
第22楼
1363587314@qq.com
王诗
第23楼
602879969@qq.com
张竣杰
第24楼
1042860290@qq.com
曹可
第25楼
1040934938@qq.com
李怡
第26楼
1419139109@qq.com
马庆云
第27楼
1355439881@qq.com
已经到底啦~(>_<)~~
'''
print(p.findall(email))
homework1.py
f = open('作业一素材.txt',mode='r', encoding='utf-8')
text = f.read()
f.close()
pandas_read_excel.py
import pandas as pd
import re
df = pd.read_excel('公司公告2021-10-21.xlsx')
df2 = pd.read_excel('公司公告.xlsx')
formula_text_sample ='''
'=HYPERLINK("http://news.windin.com/ns/bulletin.php?code=C3730AD72A6E&id=127212988&type=1","德利股份:2020年度企业年度报告书")'
'''
p = re.compile('"(.*?)","(.*?)"')
links = [[p.search(df2.loc[i][5]).group(2),
p.search(df2.loc[i][5]).group(1)] for i in range(len(df2)-1)]
f = open('company_annual_report_links.html')
html = f.read()
f.close()
template = '<li><a href="%s">%s</a></li>'
li_list = [template % (l[1], l[0]) for l in links]
li_text = '\n'.join(li_list)
li_text = '<ol>' + li_text + '</ol>'
html = html % li_text
f = open('company_annual_report_links.html','w',encoding='utf-8')
f.write(html)
f.close()
play-re.py
import re
# line = 'Cats are smaller than dogs'
# m = re.match('(.*) are (.*?)', line)
# if m:
# print('完整匹配结果:', m.group(0))
# print('第一组匹配结果:', m.group(1))
# print('第二组匹配结果:', m.group(2))
# else:
# print('没匹配成功!')
text = '''
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份证号(15位、18位数字):^\d{15}|\d{18}$
8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
16 有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$
17 这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$
18 一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$
19 这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$
20 必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$
21 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
22 这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
23 1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
24 备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
26 中文字符的正则表达式:[\\u4e00-\\u9fa5]
27 双字节字符:[^\\x00-\\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))28 空白行的正则表达式:\n\s*\r (可以用来删除空白行)
29 HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)30 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
31 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
32 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)34 IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))
整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$
只能输入数字:"^[0-9]*$"
只能输入n位的数字:"^\d{n}$"
只能输入至少n位的数字:"^\d{n,}$"
只能输入m~n位的数字:"^\d{m,n}$"
只能输入零和非零开头的数字:"^(0|[1-9][0-9]*)$"
只能输入有两位小数的正实数:"^[0-9]+(.[0-9]{2})?$"
只能输入有1~3位小数的正实数:"^[0-9]+(.[0-9]{1,3})?$"
只能输入非零的正整数:"^\+?[1-9][0-9]*$"
只能输入非零的负整数:"^\-[1-9][]0-9"*$
只能输入长度为3的字符:"^.{3}$"
只能输入由26个英文字母组成的字符串:"^[A-Za-z]+$"
只能输入由26个大写英文字母组成的字符串:"^[A-Z]+$"
只能输入由26个小写英文字母组成的字符串:"^[a-z]+$"
只能输入由数字和26个英文字母组成的字符串:"^[A-Za-z0-9]+$"
只能输入由数字、26个英文字母或者下划线组成的字符串:"^\w+$"
验证用户密码:"^[a-zA-Z]\w{5,17}$"正确格式为:以字母开头,长度在6~18之间,只能包含字符、数字和下划线
验证是否含有^%&'',;=?$\"等字符:"[^%&'',;=?$\\x22]+"。
只能输入汉字:"^[\\u4e00-\\u9fa5]{0,}$"
验证Email地址:"^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$"。
验证InternetURL:"^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。
验证电话号码:"^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$"正确格式为:"XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX"。
验证身份证号(15位或18位数字):"^\d{15}|\d{18}$"。
验证一年的12个月:"^(0?[1-9]|1[0-2])$"正确格式为:"01"~"09"和"1"~"12"。
验证一个月的31天:"^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为;"01"~"09"和"1"~"31"。
整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$
可输入形如2008、2008-9、2008-09、2008-9-9、2008-09-09:^(\d{4}|(\d{4}-\d{1,2})|(\d{4}-\d{1,2}-\d{1,2}))$
邮箱验证正则表达式:\w+([-+.']\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
'''
lines = text.splitlines()
lines = [l.strip() for l in lines if l.strip() !='']
text = '\n'.join(lines)
p = re.compile('\d{0,2} ?(.+):(.+)')
LoT = p.findall(text)
def to_markdown(LoT):
prefix = '|匹配|正则表达式|\n|:--:|:---:|\n'
md = ['|%s|`%s`|' %(t[0],t[1]) for t in LoT]
md = '\n'.join(md)
md = prefix + md
return(md)
md = to_markdown(LoT)
# md = md.replace('或', '`<br>或<br>`')
def to_ol(LoT):
ol = ['1. %s\n - `%s`' % (t[0],t[1]) for t in LoT]
ol = '\n'.join(ol)
return(ol)
ol = to_ol(LoT)
playComp.py
#
#
a = [x**2 for x in range(10)]
print(a)
b = []
for x in range(10):
b.append(x**2)
print(b)
c = a.copy()
b[1] = '哈喽'
c.count(2)
c.extend([1,1,1])
c.index(1)
c.index(1,4)
a.insert(0,2)
n = a.pop()
a.remove(2)
a.remove('哈喽')
a.reverse()
a.sort()
s = 0
for n in range(1,101):
s = s + n
print(s)
n = 10
i = 0
while i < n:
print('%d < %d' % (i, n))
i = i + 1
def exp_2(n,a=2):
f = a**n
return(f)
def yiYuanErCi(x,a=1,b=1,c=1):
f_value = a*(x**2) + b*x + c
return(f_value)
def yi_yuan_er_ci(x,a=1,b=1,c=1):
f_value = a*(x**2) + b*x + c
return(f_value)
def f(x,a=1,b=1,c=1):
f_value = a*(x**2) + b*x + c
return(f_value)
def reverse_str(text):
N = len(text)
new_text = [text[-n] for n in range(1,N+1)]
new_str = ''.join(new_text)
return(new_str)
playDict.py
import pandas as pd
# df = pd.read_excel('话题及其回复 2021-09-09 19_38.xlsx')
# raw = []
# for n in range(4,22):
# data = df.loc[n][12]
# raw.append(data)
info = []
d = {}
d['姓'] = '张'
d['名'] = '佳静'
d['性别']='女'
d['专业']='金融工程'
d['以前的座右铭']='只要学不学,就往死里学'
d['以后想从事的工作']='躺尸'
info.append(d)
dict = {}
dict['姓'] = '张'
dict['名'] = '竣杰'
dict['性别'] = '男'
dict['专业'] = '金融工程'
dict['以前的座右铭'] = '丰满的灵魂和清瘦的欲望'
dict['以后想从事的工作'] = '数据分析师'
info.append(dict)
d={}
d['姓']='杨'
d['名']='天明'
d['性别']='男'
d['专业']='动车组检修'
d['以前的座右铭']='人狠话又多'
d['以后想从事的工作']='上海铁路局南京东机辆段南京南动车运用车间京沪高铁二车队司机'
info.append(d)
d= {}
d['姓'] ='张'
d['名'] ='嘉雪'
d['性别']= '女'
d['专业'] ='金融工程'
d['以前的座右铭'] = '但凡我是个富婆'
d['以后想从事的工作'] ='养老'
info.append(d)
d={}
d['姓']='王'
d['名']='诗'
d['性别']='女'
d['专业']='国金'
d['以前的座右铭']='没有'
d['以后想从事的工作']='没有'
info.append(d)
dict = {}
dict['姓'] = '余'
dict['名'] = '文盛'
dict['性别']='男'
dict['专业']='金融工程'
dict['以前的座右铭']='忘记了!'
dict['以后想从事的工作']='投资银行'
info.append(dict)
dict ={}
dict['姓']='李'
dict['名']='梦菲'
dict['性别']='女'
dict['专业']='金融学'
dict['以前的座右铭']='努力做好人!'
dict['以后想从事的工作']='成为富人'
info.append(dict)
dict ={}
dict['姓']='万'
dict['名']='鑫琦'
dict['性别']='女'
dict['专业']='金融学'
dict['以前的座右铭']='努力做好自己!'
dict['以后想从事的工作']='自由职业'
info.append(dict)
d={}
d['姓']='贾'
d['名']='烨玮'
d['性别']='女'
d['专业']='金融工程'
d['以前的座右铭']='我真的不知道'
d['以后想从事的工作']='归隐山林'
info.append(dict)
dict1 = {}
dict1['姓'] = '曹'
dict1['名'] = '可'
dict1['性别']='女'
dict1['专业']='国际投资与金融'
dict1['以前的座右铭']='摔倒了爬起来就好'
dict1['以后想从事的工作']='摄影师'
info.append(dict1)
dict = {}
dict['姓']='耿'
dict['名']='鑫艳'
dict['性别']= '女'
dict['专业']= '金融工程'
dict['以前的座右铭'] = '热爱可抵岁月漫长'
dict['以后想从事的工作']= '轻松惬意的高薪工作'
info.append(dict)
d = {}
d['姓'] = '李'
d['名'] = '晓彤'
d['性别'] = '女'
d['专业'] = '金融工程'
d['以前的座右铭'] = '道路对了就不怕遥远'
d['以后想从事的工作'] = '稳定就好'
info.append(d)
d={}
d['姓']='李'
d['名']='方诺'
d['性别']='女'
d['专业']='金融工程'
d['以前的座右铭']='无'
d['以后想从事的工作']='无'
info.append(d)
d={}
d['姓']='刘'
d['名']='宸虎'
d['性别']='男'
d['专业']='国际投资与金融'
d['以前的座右铭']='相信光'
d['以后想从事的工作']='战略咨询'
info.append(d)
dict ={}
dict['姓']='亢'
dict['名']='晨旭'
dict['性别']='男'
dict['专业']='金融工程'
dict['以前的座右铭']='壶嘴'
dict['以后想从事的工作']='吃大锅饭'
info.append(dict)
d = {}
d['姓'] = '梅'
d['名'] = '峻滔'
d['性别'] = '男'
d['专业'] = '国际投资与金融'
d['以前的座右铭'] = '随遇而安'
d['以后想从事的工作'] = '投资分析'
info.append(d)
dict={}
dict['姓']='李'
dict['名']='怡'
dict['性别']='女'
dict['专业']='金融工程'
dict['以前的座右铭']='想吃面包自助'
dict['以后想从事的工作']='外科医生'
info.append(dict)
d = {}
d['姓'] = '贾'
d['名'] = '玉萍'
d['性别']= '女'
d['专业'] = '金融工程'
d['以前的座右铭'] = '人间烟火值得全力以赴!'
d['以后想从事的工作'] = '审计工作'
info.append(d)
x = []; m = []; xb =[]; zy =[]; yq =[]; yh =[]
for d in info:
x.append(d['姓'])
m.append(d['名'])
xb.append(d['性别'])
zy.append(d['专业'])
yq.append(d['以前的座右铭'])
yh.append(d['以后想从事的工作'])
df = pd.DataFrame({'姓': x,
'名': m,
'性别':xb,
'专业':zy,
'以前的座右铭':yq,
'以后想从事的工作':yh})
playSet.py
# -*- coding: utf-8 -*-
"""
Created on Thu Sep 9 20:16:43 2021
@author: Longan XM
"""
A = set('abcd')
B = {'c','d','e','f'}
print(A)
print(B)
C = A - B
print(C)
print(set.union(A,B))
print(A & B)
print(A ^ B)
playStr.py
# -*- coding: utf-8 -*-
"""
Created on Thu Sep 9 20:35:38 2021
@author: Longan XM
"""
s = 'i am a student of jxufe.'
s.capitalize()
s1 = ' 我 是 江 西 财 大 的 学 生++++'
s = '''
我是江西财大的学生。老师是江西财大的老师。他以前也是一个学生。
听说他以前编程什么也不会,上完课也没学到什么内核知识。但是,我
们要抓住这次学习的机会。
同学们加油。
'''
s = s.replace('\n', '')
lines = s.split('。')
lines_2 = []
for line in lines[:-1]:
lines_2.append(line+'。')
''.join(lines_2)
f = open('homework1.txt',mode='r',encoding='utf-8')
text = f.read()
f.close()
play_requests.py
import requests
x = requests.get('http://www.jxufe.edu.cn/')
print(x.text)
html = x.text
re-greedy.py
# -*- coding: utf-8 -*-
"""
Created on Thu Sep 30 19:11:49 2021
@author: Longan XM
"""
import re
re.findall('%.*>',
'%> %<a%>% b %%<c><abc> %<中%国> <ni>>VV')
re_a_tag.py
import re
import requests
url = 'http://news.windin.com/ns/bulletin.php?code=C3730AD72A6E&id=127212988&type=1'
r = requests.get(url)
r.encoding = 'utf-8'
html = r.text
p = re.compile('<a href=(.*?)>(.*?)</a>', re.DOTALL)
ls_a = p.findall(html)
re_html.py
# -*- coding: utf-8 -*-
"""
Created on Sat Oct 9 20:01:02 2021
@author: Longan XM
"""
import re
html = '''<!DOCTYPE html>
<html>
<head>
<title>
This is a title
</title>
</head>
<body>
<h1>
This is heading 1
</h1>
<p>Hello world!</p>
</body>
</html>
'''
# p = re.compile('<.*?>')
# t = p.sub('', html)
p = re.compile('<html>.*?<head>(.*?)</head>.*?<body>(.*?)</body>.*?</html>',
re.DOTALL)
hb = p.findall(html)
p_tag = re.compile('<(.*?)>(.*?)</\1>',re.DOTALL)
head = p_tag.findall(hb[0][0])
body = p_tag.findall(hb[0][1])
re_pdf.py
import fitz # pip install pymupdf
import re
doc = fitz.open('下载的年报.pdf')
toc = doc.get_toc()
page_number = toc[7][2]
page7 = doc.load_page(page_number-1)
text = page7.getText()
p = re.compile('否(.*?)营业收入',
re.DOTALL)
title_text = p.search(text).group(1)
p1 = re.compile('(\d{4})\s?年')
t1 = p1.findall(title_text)
text = text[text.find('\n营业收入'):]
p_r = re.compile('\\n\w+\s?\w*(.*?)',
re.DOTALL)
result = p_r.findall(text)
r = [res.strip() for res in result]
# def getText(pdf):
# text = ''
# doc = fitz.open(pdf)
# for page in doc:
# text += page.getText()
# doc.close()
# return(text)
# text2 = getText('下载的年报.pdf')
tel.py
# -*- coding: utf-8 -*-
"""
Created on Thu Sep 30 20:43:27 2021
@author: Longan XM
"""
import re
p = re.compile('(第\d{1,2}楼)\\n(1\d\d ?\d{4} ?\d{4})(?!\d)')
tel = '''
把手机号码发进来
吴燕丰
张佳静
第1楼
18296670615
贾玉萍
第2楼
17361202940
贾烨玮
第3楼
15717098692
吴燕丰
第4楼
139 1663 7993
余文盛
第5楼
13086135037
张嘉雪
第6楼
18296586050
万鑫琦
第7楼
15810781081
李梦菲
第8楼
13619940121
刘宸虎
第9楼
18789199553
李晓彤
第10楼
13262585979
梅峻滔
第11楼
13385143672
耿鑫艳
第12楼
14755936911
孙逸伦
第13楼
17371502788
齐宏鑫
第14楼
15512343595
杨子妮
第15楼
15292106743
李方诺
第16楼
15638914816
曹可
第17楼
15976386289
丰亦成
第18楼
18822027138
李怡
第19楼
18434754602
张竣杰
第20楼
18742034110
王诗
第21楼
18735086836
陈学香
第22楼
18702595927
马庆云
第23楼
18842510230
宗帼
第24楼
19979479689
胡昕宇
第26楼
17665386821
丁涛
第27楼
17755557111
杨天明
第28楼
17317803805
佟利汉
第29楼
18640982997
王子月
第30楼
17658387218
汲生钦
第31楼
18206497982
已经到底啦~(>_<)~~
'''
# print(p.findall(tel))
LoT = p.findall(tel)