type
status
date
slug
summary
tags
category
icon
password
URL-TEXT
某度站长工具在没备案的时候只能手动提交,因此提供一个脚本来获取每行的site url。
📝 通过sitemap提取Url
脚本实现
要编写一个 Python 脚本来提取 sitemap 中的所有loc
标签(通常包含页面的 URL),可以使用xml.etree.ElementTree
,这是一个处理 XML 数据的 Python 标准库模块。以下是一个简单的脚本示例,它加载 XML sitemap,解析它,并提取所有的loc
标签:
脚本解析
- 导入库:使用
xml.etree.ElementTree
来解析 XML 数据,requests
库来发送 HTTP 请求获取 sitemap。
- 函数定义:
extract_sitemap_locs
函数接受一个 sitemap 的 URL。
- 发送 HTTP 请求:使用
requests.get
获取给定 URL 的内容。
- 错误处理:通过
response.raise_for_status()
确保 HTTP 请求成功。
- 解析 XML:使用
ElementTree.fromstring
将获取的内容解析为 XML 树的根元素。
- 提取 loc 标签:使用列表推导式从 XML 树中找到所有的
loc
标签,并收集其文本内容。
- 使用示例:通过指定一个 sitemap URL 来调用此函数,并打印提取的 URLs。
根据实际情况调整
sitemap_url
的值,确保它指向一个有效的 sitemap 文件。这个脚本适用于标准的 XML sitemap,但如果您的 sitemap 是通过索引或分页实现的,则需要进行适当的修改来处理这些情况。运行结果:
🤗 总结归纳
通过Python脚本,我们可以从sitemap中提取所有的URL。这个脚本使用Python的xml.etree.ElementTree和requests库,发送HTTP请求获取sitemap,解析XML数据,然后提取所有的loc标签。这个脚本适用于标准的XML sitemap,如果sitemap是通过索引或分页实现的,可能需要进行适当的修改。
📎 参考文章
- 作者:木白
- 链接:https://www.xiebaiyuan.top/technology/pick-url-from-sitemap
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。