IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    GPT驱动网页通用爬虫

    Tim发表于 2023-12-30 21:29:01
    love 0
    GPT为首的语言模型彻底改变了爬虫的写法。以前可能对每个网站的爬虫都需要进行特殊的配置或处理(每个网站都有自己独特的结构),才能提取到想要的信息。但通过GPT,一个爬虫提取所有网站上自己想要的信息,就不是不可能。为此我写了一个在爬取过程中使用gpt提取信息的通用爬虫,并开源在了Github上。 介绍 GPT-Web-Crawler 是一个基于python和puppeteer的网络爬虫,可以爬取网页并从网页中提取内容(包括网页的标题,url,关键词,描述,所有文本内容,所有图片和截图)。它使用起来非常简单,只需要几行代码就可以用来


沪ICP备19023445号-2号
友情链接