#Github #开源 #工具 做爬虫或者数据采集,有时候只是想快速抓个网页数据,却要写一堆代码处理 HTML、JSON,还得考虑翻页逻辑,挺费劲。
偶然看到 Pipet 这个命令行爬虫工具,用类似写配置文件的方式描述数据结构,就能自动抓取网页内容。
支持三种工作模式:HTML 解析、JSON 解析和 JavaScript 执行,通过缩进来定义数据层级,还能直接用 Unix 管道扩展功能。
https://github.com/0xSojalSec/pipet
比如想抓 Hacker News 的标题和链接,只需要写几行 CSS 选择器,Pipet 就能自动提取并按你定义的结构输出。
还支持自动翻页,只要指定 “下一页”的选择器,它就会自动跟随链接继续抓取。
另外还提供了监控模式,设置轮询间隔,数据变化时自动执行指定命令,可以用来监控价格变动、票务上新这类场景。
提供了开箱即用的二进制包,也支持通过 Go 直接编译安装。
via Memos
偶然看到 Pipet 这个命令行爬虫工具,用类似写配置文件的方式描述数据结构,就能自动抓取网页内容。
支持三种工作模式:HTML 解析、JSON 解析和 JavaScript 执行,通过缩进来定义数据层级,还能直接用 Unix 管道扩展功能。
https://github.com/0xSojalSec/pipet
比如想抓 Hacker News 的标题和链接,只需要写几行 CSS 选择器,Pipet 就能自动提取并按你定义的结构输出。
还支持自动翻页,只要指定 “下一页”的选择器,它就会自动跟随链接继续抓取。
另外还提供了监控模式,设置轮询间隔,数据变化时自动执行指定命令,可以用来监控价格变动、票务上新这类场景。
提供了开箱即用的二进制包,也支持通过 Go 直接编译安装。
via Memos