#Github #开源 #工具做爬虫或者数据采集，有时候只是想快速抓个网页数据，却要写一堆代码处理 HTML、JSON，还得考虑翻页逻辑，挺费劲

19:59 · 2025年12月28日 · 周日

#Github #开源 #工具做爬虫或者数据采集，有时候只是想快速抓个网页数据，却要写一堆代码处理 HTML、JSON，还得考虑翻页逻辑，挺费劲。

偶然看到 Pipet 这个命令行爬虫工具，用类似写配置文件的方式描述数据结构，就能自动抓取网页内容。

支持三种工作模式：HTML 解析、JSON 解析和 JavaScript 执行，通过缩进来定义数据层级，还能直接用 Unix 管道扩展功能。

https://github.com/0xSojalSec/pipet

比如想抓 Hacker News 的标题和链接，只需要写几行 CSS 选择器，Pipet 就能自动提取并按你定义的结构输出。

还支持自动翻页，只要指定 “下一页”的选择器，它就会自动跟随链接继续抓取。

另外还提供了监控模式，设置轮询间隔，数据变化时自动执行指定命令，可以用来监控价格变动、票务上新这类场景。

提供了开箱即用的二进制包，也支持通过 Go 直接编译安装。

via Memos

#Github #开源 #工具 做爬虫或者数据采集，有时候只是想快速抓个网页数据，却要写一堆代码处理 HTML、JSON，还得考虑翻页逻辑，挺费劲

#Github #开源 #工具做爬虫或者数据采集，有时候只是想快速抓个网页数据，却要写一堆代码处理 HTML、JSON，还得考虑翻页逻辑，挺费劲