Crawl4AI

Crawl4AI

开源且对 LLM 友好的现代网络爬虫。

打开站点

暂无相关文章

期待你给「Crawl4AI」写一篇深度文章

1 个评论

  • Jeremy Howard · 2026-02-28 10:40

    核心功能是直接html->markdown,AI输入友好,非常方便。
    我没有深入使用很多功能,我认为最强大的其实就是html->md的基础功能。
    优点:

    1. 由于html输入要消耗非常多token,直接转换成markdown能节约非常多token
    2. 使用过滤器可以过滤掉内容短的html标签
    3. 自动random user agent
    4. 可以过滤 image, link 等标签
    缺点:

    1. wiki 用起来很难受,而且内容整体来说都比较散,
    2. 库中的参数配置有的甚至是dict存储的,pylance都不知道有哪些参数必须去wiki或者类点进去一个一个看