最近在爬取一个志愿服务的项目,网页是志愿服务网,爬的时候偷懒,只存成了一个大的字典,放到pickle里。
无用代码较多。我截图了。
得到一个df,这个df是字典的的形式。
df = pd.read_pickle(os.path.join(data_dir, org_data_list[1299]))
其中PTU是一个里列表,里面还有字典。
ptu = df['PTU'] ptu len(ptu)
ptu里面的每一个元素,有volun_name ,我向做一个大的字典,对name进行计数,然后存成pickle。具体就是这样的。:
def get_org_s_parter(ptu):
dct_temp = {}
for p in ptu:
print(p['volun_name'])
for nm in p['volun_name']:
if dct_temp.get(nm) is None:
dct_temp[nm] = 1
else:
dct_temp[nm] += 1
return dct_temp
aaa = get_org_s_parter(ptu)
aaa
得到的aaa就是我想要的。
后面就是把这个字典,存成文件名的特征的pickle了。