GPT为首的语言模型彻底改变了爬虫的写法。以前可能对每个网站的爬虫都需要进行特殊的配置或处理(每个网站都有自己独特的结构),才能提取到想要的信息。但通过GPT,一个爬虫提取所有网站上自己想要的信息,就不是不可能。为此我写了一个在爬取过程中使用gpt提取信息的通用爬虫,并开源在了Github上。 介绍 GPT-Web-Crawler 是一个基于python和puppeteer的网络爬虫,可以爬取网页并从网页中提取内容(包括网页的标题,url,关键词,描述,所有文本内容,所有图片和截图)。它使用起来非常简单,只需要几行代码就可以用来