Products
GG网络技术分享 2025-03-18 16:14 1
如图所示,这个div中间夹着的这段英文句子怎么提取出来?要剔除所有的换货和缩进。
谢谢各位
原网页完全可以使用xlml之类的把字符串的源码转换为Element对象,然后用xpath之类的去解析,大概的代码应该是:
_ = etree.HTML(text)data_list = _.xpath("//div[@class='primary-head']")
for data in data_list:
text = data.xpath("./text()")[0].replace('\\r','').replace('\\n','').strip() # 这边replace,strip是去掉换行空格之类的
单单用正则,代码为:
text = re.findall("style=\\"\\">([\\s\\S]*)<\\/div>",sss)[0].replace('\\r','').replace('\\n','').strip()print text
前段时间帮女朋友做仿真,祖传的实验室仿真代码是用C语言写(没错用C语言做仿真!)。生成的数据保存在了TXT文件中,由于是多种不同仿真数据存在一个文件(祖传代码历史遗留问题,懒得改了)每段数据间用符号和注释分割。数据格式如下:
*************************************Target Distribution
0 4.485766e+00
1 9.926577e+00
2 1.198039e+01
3 1.025028e+01
4 5.473594e+00
5 1.000838e+00
6 7.327058e-03
7 0.000000e+00
8 0.000000e+00
之前为了省事,直接用Matlab导入数据进行处理。最近在玩python,想到可以用python正则表达式识别数据提出出来代码如下:
Demand feedback