可以直接用于大语言模型和AI应用。性能快,还能输出适合大语言模型的格式,比如JSON、清理过的HTML和markdown。它还支持同时爬取多个网址,能提取所有媒体标签(图片、音频、视频),以及所有内外部链接。可以自定义用户代理,还能给网页截图,甚至在爬取之前执行自定义JavaScript。
Github:https://github.com/unclecode/crawl4ai
官方文档:https://crawl4ai.com/mkdocs/
可以直接用于大语言模型和AI应用。性能快,还能输出适合大语言模型的格式,比如JSON、清理过的HTML和markdown。它还支持同时爬取多个网址,能提取所有媒体标签(图片、音频、视频),以及所有内外部链接。可以自定义用户代理,还能给网页截图,甚至在爬取之前执行自定义JavaScript。
Github:https://github.com/unclecode/crawl4ai
官方文档:https://crawl4ai.com/mkdocs/
扫码打开当前页

BiliBili

之前