我使用Jupyter笔记本、Pandas框架和Python作为编程语言。
我有一个如下形状的数据帧(10500,4)。所以它有4列10500条记录。
初始日期是对象数据类型的4列中的一列。这是它包含的信息类型:Initial_Date
1971
11969
102006
03051992
00131954
27001973
45061987
1996
很容易将该列的格式写成DDMMYYYY(03051992是1992年5月3日)
注意:如您所见,有无效的MM(00和13)和无效的DD(00和45)。在
我想用正则表达式来提取任何可用的领域。我不知道如何把YYYY分别读到MM或DD,请在这里给我指点。提取完成后,我想测试YYYY、DD和MM是否有效。如果其中任何一个无效,则指定NaT else DD-MM-YYYY或DD/MM/YYYY(不要对结束格式很挑剔)。在
例如:051992被认为是无效的,因为它变成了DD/05/1992
包含完整8位数字的字段(例如10081996)被认为是有效的10/08/1996
我从熊猫,Jupyter笔记本开始,慢慢恢复我的Python技能。仅供参考,如果你们认为有更好的方法来转换每个字段为一个有效的日期数据类型,那么请务必启发我。在
版权声明:本文为weixin_28759537原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。