山东大数据竞赛--疫情密切接触者追踪

烂尾了烂尾了

多任务

并发

单核cpu处理多任务 交替执行 是并发

并行

多核cpu处理多任务,一个核一个任务

在python中用多进程来实现多任务

进程

资源分配的最小单位,运行起来的程序。程序是静态,进程是动态

多进程完成多任务

读取文件 改变列名

1
2
3
#df1 = pd.read_csv('../data/确诊患者亮码记录.csv', names = ['usetime','lat','lng','note'], header = 0)
df1 = pd.read_csv('../data/确诊患者亮码记录.csv')
df2 = pd.read_csv('../data/df_travel.csv')

排序

1
2
3
4
5
df1 = pd.read_csv('../data/确诊患者亮码记录.csv')
df2 = pd.read_csv('../data/df_travel.csv')

df1 = df1.sort_values(by = ['亮码时间']) # 排序 然后 截取 j从 当前id开始 到后面的时间和位置
df2 = df2.sort_values(by = ['usetime'])

转换成datetime

1
2
df1['usetime'] = pd.to_datetime(df1['usetime'])
df2['usetime'] = pd.to_datetime(df2['usetime'])

提取日期

尝试

1
2
3
str1 = df2['usetime'][2]
re.findall('(.+)\s',str1) #日期
re.findall('\s(.+)$',str1)[0] # 时间

烂尾了,做不了,太偏计算机了,人家都是CPython,只有我,还不会用numba加速,但是我也有从五个小时到四十几分钟的进步,导师又要说我不干正事耽误时间啦!!