Products
GG网络技术分享 2025-03-18 16:14 3
需要从TXT文件中提取以下三个字段信息,正则表达式应该怎么写比较好呢?
'gender': {'type': 'male', 'probability': 1}, 'emotion': {'type': 'sad', 'probability': 0.58}}]}}, '#', 'G:\\Chunyu\\中1.jpg'
源数据格式是这样的:
({'error_code': 0, 'error_msg': 'SUCCESS', 'log_id': 8494848494947, 'timestamp': 1635127822, 'cached': 0, 'result': {'face_num': 1, 'face_list': [{'face_token': 'f97aca8cf9d44434e3f1e0f0a4c8a871', 'location': {'left': 28.57, 'top': 52.3, 'width': 93, 'height': 91, 'rotation': -1}, 'face_probability': 1, 'angle': {'yaw': -6.63, 'pitch': 7.59, 'roll': -2.64}, 'age': 35, 'beauty': 52.53, 'gender': {'type': 'male', 'probability': 1}, 'expression': {'type': 'none', 'probability': 1}, 'face_shape': {'type': 'square', 'probability': 0.45}, 'glasses': {'type': 'common', 'probability': 1}, 'emotion': {'type': 'sad', 'probability': 0.58}}]}}, '#', 'G:\\Chunyu\\中1.jpg'
这样子是一条,一共有8000+条,需要提取出加粗的部分
regex = r"('gender':\\s*{[^}]+})|('glasses':\\s*{[^}]+})|('emotion':.+.jpg')"
不清楚是否你每个文件都是类似的,如果不行,再发出一个文件,微调下就差不多了,我写了3个捕获组,可根据需要自己调整。
有帮助可以采纳下,多谢!
你要提取的源数据是啥,提取出来的数据是啥??
前段时间帮女朋友做仿真,祖传的实验室仿真代码是用C语言写(没错用C语言做仿真!)。生成的数据保存在了TXT文件中,由于是多种不同仿真数据存在一个文件(祖传代码历史遗留问题,懒得改了)每段数据间用符号和注释分割。数据格式如下:
*************************************Target Distribution
0 4.485766e+00
1 9.926577e+00
2 1.198039e+01
3 1.025028e+01
4 5.473594e+00
5 1.000838e+00
6 7.327058e-03
7 0.000000e+00
8 0.000000e+00
之前为了省事,直接用Matlab导入数据进行处理。最近在玩python,想到可以用python正则表达式识别数据提出出来代码如下:
Demand feedback