IT博客汇 | GPT驱动网页通用爬虫

GPT驱动网页通用爬虫

Tim发表于 2023-12-30 21:29:01

GPT为首的语言模型彻底改变了爬虫的写法。以前可能对每个网站的爬虫都需要进行特殊的配置或处理（每个网站都有自己独特的结构），才能提取到想要的信息。但通过GPT，一个爬虫提取所有网站上自己想要的信息，就不是不可能。为此我写了一个在爬取过程中使用gpt提取信息的通用爬虫，并开源在了Github上。介绍 GPT-Web-Crawler 是一个基于python和puppeteer的网络爬虫，可以爬取网页并从网页中提取内容（包括网页的标题，url，关键词，描述，所有文本内容，所有图片和截图）。它使用起来非常简单，只需要几行代码就可以用来