技术分享
通过sitemap提取Url的脚本
00 分钟
2024-5-10
2024-5-12
type
status
date
slug
summary
tags
category
icon
password
URL-TEXT
😀
某度站长工具在没备案的时候只能手动提交,因此提供一个脚本来获取每行的site url。
 

📝 通过sitemap提取Url

脚本实现

要编写一个 Python 脚本来提取 sitemap 中的所有 loc 标签(通常包含页面的 URL),可以使用 xml.etree.ElementTree,这是一个处理 XML 数据的 Python 标准库模块。以下是一个简单的脚本示例,它加载 XML sitemap,解析它,并提取所有的 loc 标签:
 
 

脚本解析

 
  1. 导入库:使用 xml.etree.ElementTree 来解析 XML 数据,requests 库来发送 HTTP 请求获取 sitemap。
  1. 函数定义extract_sitemap_locs 函数接受一个 sitemap 的 URL。
  1. 发送 HTTP 请求:使用 requests.get 获取给定 URL 的内容。
  1. 错误处理:通过 response.raise_for_status() 确保 HTTP 请求成功。
  1. 解析 XML:使用 ElementTree.fromstring 将获取的内容解析为 XML 树的根元素。
  1. 提取 loc 标签:使用列表推导式从 XML 树中找到所有的 loc 标签,并收集其文本内容。
  1. 使用示例:通过指定一个 sitemap URL 来调用此函数,并打印提取的 URLs。
 
根据实际情况调整 sitemap_url 的值,确保它指向一个有效的 sitemap 文件。这个脚本适用于标准的 XML sitemap,但如果您的 sitemap 是通过索引或分页实现的,则需要进行适当的修改来处理这些情况。
 

运行结果:

notion image

🤗 总结归纳

通过Python脚本,我们可以从sitemap中提取所有的URL。这个脚本使用Python的xml.etree.ElementTree和requests库,发送HTTP请求获取sitemap,解析XML数据,然后提取所有的loc标签。这个脚本适用于标准的XML sitemap,如果sitemap是通过索引或分页实现的,可能需要进行适当的修改。

📎 参考文章

 
上一篇
什么是Git LFS
下一篇
推荐web部署的框架