青南
发表于
2025-06-04 12:27:50

一日一技：如何正确渲染大模型返回的Markdown？

摄影：产品经理简单做个家宴我们经常让大模型返回Markdown格式的文本，然后通过Python的markdown库把文本渲染成HTML。但不知道大家有没有发现，大模型返回的Markdown并不是标准的Markdown。特别是当返回的内容包含列表时，大模型返回的内容有问题。例如下面这段文本：1234**关于这个问题，我有以下看法*** 第一点* 第二点* 第三点你粗看起来没有问题，但当你使用markdown模块去把它渲染成HTML时，你会发现渲染出来的结果不符合你的预期，如下图所示：这是因为标准的Markdown对换行非常敏感，列表项与它上面的文本之间，必须有一个空行，才能正确解析，如下图所示：不仅是空行，还有多级列表的缩进问题。标准Markdown的子列表项缩进应该是4个空格，但大模型返回的子列表缩进经常只有3个空格，这就导致解析依然有问题。如下图所示：而且这个空行问题和缩进问题，我尝试过反复在Prompt里面强调，但大模型依然会我行我素，无论是国产大模型还是Claude或者Gemini 2.5 Pro这些最新大模型，都有这个问题。我曾经一度被憋得没办法，让大模型给我返回JSON，我再写代码把JSON解析出来手动拼接成标准Markdown。后来，我发现主要的问题还是Python的markdown库对格式要求太严格了，其实换一个更宽容的库就可以解决问题。于是我找到了mistune这个 ...继续阅读 (21)

青南
发表于
2025-05-26 13:22:46

一日一技：Scrapy如何发起假请求？

摄影：产品经理韩国章肥虾。在使用Scrapy的时候，我们可以通过在pipelines.py里面定义一些数据处理流程，让爬虫在爬到数据以后，先处理数据再储存。这本来是一个很好的功能，但容易被一些垃圾程序员拿来乱用。我看到过一些Scrapy爬虫项目，它的代码是这样写的：1234567891011...defstart_requests(self):yieldscrapy.Request('https://baidu.com')defparse(self, response):importpymongohandler = pymongo.MongoClient().xxdb.yycolrows = handler.find()forrowinrows:yieldrow这种垃圾代码之所以会出现，是因为有一些垃圾程序员想偷懒，想复用Pipeline里面的代码，但又不想单独把它抽出来。于是他们没有皱褶的脑子一转，想到在Scrapy里面从数据库读取现成的数据，然后直接yield出来给Pipeline。但因为Scrapy必须在start_requests里面发起请求，不能直接yield数据，因此他们就想到先随便请求一个url，例如百度，等Scrapy的callback进入了parse方法以后，再去读取数据。虽然请求百度，不用担心反爬问题，响应大概率也是HTTP 200，肯定能进 ...继续阅读 (26)

青南
发表于
2025-05-06 15:36:19

一日一技：如何正确解析超大JSON列表

摄影：产品经理回锅肉当我们采购数据集时，有时候供应商会以JSON Lines的形式交付给我们。这种格式，本质上是文本格式，它每一行是一个JSON。例如，供应商给我们了一个文件小红书全量笔记.json文件，我们可以使用如下Python代码来一行一行读取：123456importjsonwithopen('小红书全量笔记.json')asf:forlineinf:info = json.loads(line)note = info['note']print('笔记内容为：', note)这个格式的好处在于，每一次只需要把少量内容读取到内存中。即便这个文件有1TB，我们也可以使用一个4GB内存的电脑来处理。今天出了一个乌龙事件，某数据供应商在给我数据的时候，说的是以JSON Lines格式给我。但我拿过来解压缩以后一看，100GB的文件，里面只有1行，如下图所示：也就是说，他用的是一个超大JSON直接导出给我，并没有使用JSON Lines格式。正常情况下，如果我要直接解析这个数据，需要我的电脑内存超过100GB。这个大JSON大概格式是这样的：1[{"question":"xxx111","answer":"aaa","crawled_time":"2025-05-01 12:13:14"},{" ...继续阅读 (25)

青南
发表于
2025-05-06 15:36:19

一日一技：315晚会曝光的获客软件是什么原理

今年315晚会曝光了几个获客软件，号称可以拦截任何人的网络浏览记录，并根据对方在直播软件的留言、打过的电话、浏览过的网址，获取对方的手机号和微信号。还有在地图上随便画一个圈，就能找到圈里面130万人的联系方式。作为一个软件工程师，我来说说我对他们背后原理的猜测。晚会里面笼统的说到他们使用了爬虫技术。其实这种说法并不准确。爬虫做不到这种程度。爬虫只能爬取到人眼能看到的各种公开数据。例如有人在直播软件下面回复了评论，爬虫能爬到评论人的用户昵称、评论的内容。但是因为评论人的真名、手机号码和微信号并没有显示在直播软件上，所以爬虫是不能爬到的。它后续还需要使用撞库、社工库、社会工程学等等一系列操作，才能定位到用户的手机号。以它直播软件获客这个例子，我觉得它背后的原理是这样的：获客公司有大量的爬虫，他会在各种社交网站上面爬取每个人公开的信息。例如微博、小红书、某些论坛等等。然后把这些信息储存在数据库中。也会记录他们的发帖、回帖。收集各种社工库泄露出来的信息，也储存在数据库中。这些社工库里面可能包含了某些著名的社交网站。根据用户需求，在某个特定的直播中，抓到其他用户的评论，发现这个评论显示用户对直播的产品有兴趣。根据这个用户的用户名，去撞库。因为根据社会工程学的原理，很多人在多个不同的网站，会使用相同的用户名，因此通过用户名去撞库，能够把某人在不同社交网站上面的账号关联起来。先看社工库里面，这个 ...继续阅读 (18)

青南
发表于
2025-05-06 15:36:19

一日一技：我的Cursor开发经验

这两天我使用Cursor开发了一个新闻网站的前端+后端。在开发的过程中，我总结了一些适合于我自己的最佳实践。这些方法让我在使用Cursor的时候，几乎没有遇到任何阻碍，非常顺利，非常流畅地完成了网站的开发。我的开发经验，总结起来一句话就能说清楚：多写文档少聊天。下面我来详细说一下具体方法。我全程使用Cursor的agent模式，模型使用Claude 3.7 Sonnet。这个项目是一个新闻网站，需要写前端+后端。前端我首先使用Trickle生成了页面。大家也可以使用Bolt.new或者lovable，效果都差不多。需要和后端交互的地方都先使用假数据模拟。生成好以后，把代码下载到本地。改写前端代码使用Cursor打开下载的前端代码，让它阅读代码，并使用Next.js+tailwind css+shadcn/ui改写代码。并特别提醒，新版本的shadcn/ui对应的命令应该是npx shadcn xxx，让他不要再使用老版本的写法。改写完成以后，执行npm run dev预览前端页面，确保改写以后的效果跟你之前的一样。创建临时API文档由于前端页面本来就是你设计的，因此你肯定很清楚这个前端页面在哪些地方需要跟后端做交互。现在，在代码根目录创建一个markdown文件，例如叫做api_desc.md，然后在里面描述你的后端API。这里描述不需要写得很细节，关键是要写清楚api的 ...继续阅读 (30)

青南
发表于
2025-05-06 15:36:19

一日一技：如何实现临时密码？

我买的房子今天交房了。开发商配的门锁是某品牌的智能门锁，它可以使用指纹开锁，也可以使用密码开锁。在使用手机跟门锁配对以后，可以远程在手机上生成临时密码。临时密码只能使用1次，并且在生成的30分钟内有效。这个功能可以方便装修人员进出又不用担心泄露密码。因为新房子还没有通网，所以门锁肯定是无法连接互联网的。而装修人员给我打电话要临时密码时，我在公司，离家几十公里外，门锁也不可能跟手机通信。那么问题来了，门锁是怎么验证这个临时密码合法的？今天我一直在想这个问题，目前有一些思路，但无法确定。所以发出来跟大家一起讨论一下它的实现方法。已知：手机App只有第一次跟门锁配对时，会通信，之后就完全不会有任何通信门锁无法连接外网无论我在任何地方，手机上都能生成临时密码。门锁输入临时密码就能解锁临时密码只能使用一次，之后就会失效临时密码是8位数字临时密码有效期30分钟，超时以后就会失效手机可以连续多次生成临时密码，每一次密码都不一样，但每个临时密码都可以使用首先第4条非常简单，在门锁里面记录一下已经使用的密码就可以实现密码只能使用1次。所以不需要考虑这个问题了。另外几个问题，我根据我自己的编程经验做一些推测。临时密码是一个8位数字，例如8031 1257。由于手机不需要跟门锁通信，门锁就能够识别这个密码，因此我一开始觉得这个8位数字包含某种校验规则。例如，前4个数字，乘以100以后对26取余数，就是第 ...继续阅读 (21)

青南
发表于
2025-01-29 15:12:49

一日一技：如何使用Cursor学习开源项目

...继续阅读 (13)

青南
发表于
2025-01-29 15:12:49

一日一技：如何用编程的方式来编排工作流

...继续阅读 (13)

青南
发表于
2025-01-29 15:12:49

一日一技：如何使用大模型提取结构化数据

...继续阅读 (17)

青南
发表于
2024-12-26 13:29:12

一日一技：超简单方法显著提高大模型答案质量

很多人都知道Prompt大神李继刚，他使用Lisp语法来写Prompt，把大模型指挥得服服帖帖。但我们很多时候没有办法把自己业务场景的Prompt改造成伪代码的形式。相信不少人跟我一样，会使用Markdown格式来写Prompt，大部分时候没什么问题，但偶尔总会发现大模型返回的结果跟我们想要的不一样。Markdown的弊端例如下图所示：让大模型给我返回一个JSON，它返回的时候会用Markdown的多行代码格式来包装这个JSON。我后续要解析数据时，还得使用字符串切分功能把开头结尾的三个反引号去掉。即便我把system prompt里面的反引号去掉，改成：1234567你是一个数据提取专家，你能从一段文本中提取出所有结构化数据。并以J50N格式返回。返回格式示例:{"name": "小王","age": 27,"salary": 999}大模型有时候也会在返回时加上三个反引号。解决方法今天要讲的这个超级简单的方法，就可以解决这种问题。这个方法就是，别使用Markdown，改成使用XML。我们来看看把上面这个例子改成XML以后的效果：返回的结果直接就满足要求。在使用XML格式的Prompt时，对格式要求没有那么严格，它的核心目的就是让大模型能区分出Prompt里面的各个部分。因此标签的名字可以自己随便取，只要能表名意思就好了。例如上面我使用标签来表示我希望返回的数 ...继续阅读 (35)

青南
发表于
2024-12-23 15:18:21

一日一技：如何正确对Python第三方库做二次开发

今天，有同学在知识星球上给我提了一个问题：如何在Simplemind中接入Azure的GPT接口。如下图所示。在使用Python时经常会出现这样的情况，某一个第三方库，满足我们99%的需求，但碰巧有一个小需求不满足。遇到这种情况，有些同学会忍痛割爱，换一个库；还有一些同学，会继续使用这个第三方库，但是缺的那个功能，他就完全自己单独写；剩下的同学，可能是把这个第三方库下载下来，放到自己项目的根目录中，然后当做项目的一部分来修改并导入使用。今天我们就来讲一下这个问题。前两个方法不需要多说什么。第三个方法从功能上来说没什么问题，但会给自己的项目引入大量其他代码，导致项目在做安全性检查、静态类型检查、Code Review时变得很麻烦。而且这个第三方库必须放到项目的根目录，否则在导入时，它的导入语句就跟正常pip安装的导入语句不一样，以后如果官方库支持了这个缺失的功能，你得改很多个导入语句，才能再换回来，无形中引入了很多的不确定性和隐患。我们今天想实现的功能是，调用这个二次开发的第三方库时，我自己的代码不需要做任何修改，甚至包括环境变量也不需要修改，直接像是调用任何pip安装的第三方库一样使用。实际上，在pip设计的时候，就已经预料到了这种情况。所以pip install有一个-e参数，可以用来指定某个特定文件夹里面的代码为一个可编辑的第三方库。对这个文件夹里面的所有修改会立刻生效，同时对 ...继续阅读 (33)

青南
发表于
2024-12-14 13:30:21

一日一技：为什么我很讨厌LangChain

一说到RAG或者Agent，很多人就会想到LangChan或者LlamaIndex，他们似乎觉得这两个东西是大模型应用开发的标配。但对我来说，我特别讨厌这两个东西。因为这两个东西就是过度封装的典型代表。特别是里面大量使用依赖注入，让人使用起来非常难受。什么是依赖注入假设我们要在Python里面模拟出各种动物的声音，那么使用依赖注入可以这样写：12345678910111213141516171819202122defmake_sound(animal):sound = animal.bark()print(f'这个动物在{sound}')classDuck:defbark(self):return'嘎嘎叫'classDog:defbark(self):return'汪汪叫'classCat:defbark(self):return'喵喵叫'small_cat = Cat()make_sound(small_cat)对于make_sound函数，你不需要知道animal这个对象的bark方法具体是怎么实现的，你只需要调用它并获取它的返回值就可以使用了。当你要添加一个新的动物时，你只需要实现一个类，这个类里面有一个方法叫做bark。那么，当这个动物需要发出声音时，把这个动物实例传入给ma ...继续阅读 (37)

青南
发表于
2024-11-12 13:53:53

一日一技：Python类型标注的高级用法

假设你正在写后端代码，其中一个函数的功能是传入文章id，返回文章详情。因为项目比较大，因此在定义函数时，把类型标注加上，标明了参数的类型和返回的类型。例如：123456789101112131415161718192021222324252627fromtypingimportListfromdataclassesimportdataclass@dataclassclassArticleDetail:id:inttitle:strcontent:strtag:List[str]defquery_article_detail(article_id:int) -> ArticleDetail:ifisinstance(article_id,int):detail = ArticleDetail(id=article_id,title='文章标题',content='文章内容',tag=['tag1','tag2'])returndetaildeftest_query_article_detail():detail = query_article_detail(123)print(detail.content)现在，当你拿到返回的detail变量时，IDE的自动补全就可以正常工作了，如下图所示。你想让这个函数 ...继续阅读 (34)

青南
发表于
2024-11-10 09:52:54

一日一技：如何实现高性能自动补全？

我们知道，在写Python时，使用IDE的自动补全功能，可以大大提高代码的开发效率。使用类型标注功能，可以让IDE知道应该怎么做自动补全。当我们没有类型标注时，IDE并不知道函数的某个参数是什么东西，没有办法做补全，如下图所示。但当我们把类型标注加上以后，IDE就能正常补全了，如下图所示：这样做，需要从另一个文件中，把这个参数对应的类导入到当前文件里面，然后把类作为类型填写到函数参数后面。咋看起来没有什么问题，并且我，还有很多看文章的同学，应该经常这样写类型标注的代码，从而提高代码的开发效率。但如果你的项目规模大起来以后，你就会遇到几个比较麻烦的问题：导入链过长：例如上面截图中的代码，我从model.py中导入了Detail这个类。如果我在model.py文件的开头，还有from aaa import bbb，而在aaa.py文件开头，又有from ccc import ddd；在ccc.py开头，又有from xxx import yyy……这个导入链条就会变得很长。虽然Python对模块导入已经做了缓存，多次执行from xxx import yyy时，只有第一次会生效，后面都是读取缓存，但读取缓存也会消耗一些时间。循环依赖：一般情况下，你的代码能够正常运行，那么应该是不会存在循环依赖的。否则肯定报错了。但现在你在一个原来的依赖链条之外的文件中，为了做类型标注，导入了一个已有的 ...继续阅读 (38)

青南
发表于
2024-10-31 14:35:53

一日一技：如何正确修复有异常的JSON？

当我们使用大模型生成JSON，或者爬虫抓取数据时，可能会遇到一些有异常的JSON，例如：括号不闭合1{"profile":{"name":"xx","age":20}没有引号1{name:青南,age:20,salary:"99999999, }反斜杠异常1{"name":"青南","age":20,"salary: "\"very big\\""}Python的json模块解析这些有问题的JSON时就会报错。这个时候，可以使用一个叫做json-repair的第三方库来解决问题。使用pip就可以安装json-repair。导入以后，就可以像json.loads一样使用了，运行效果如下图所示：对于双引号异常和反斜杠异常，也能正常解析：字符串型的Python字典，也能正常解析，如下图所示：使用这个模块，在很大程度上就能避免JSON解析不对的问题了。 ...继续阅读 (37)

青南
发表于
2024-10-17 00:34:37

一日一技：使用大模型实现全自动爬虫（一）

在文章一日一技：图文结合，大模型自动抓取列表页中，我提到可以使用大模型实现一个全自动爬虫。只需要输入起始URL加上需求，就可以借助模拟浏览器自动完成所有的抓取任务。在实现的过程中，我发现涉及到的知识点可能一篇文章讲不完，因此拆分成了多篇文章。爬虫演示今天是第一部分，我们暂时不依赖模拟浏览器，而是使用httpx（你也可以使用requests）实现全自动爬虫，传入我博客文章列表页，爬虫会自动抓取前三页所有博客文章的标题、正文、作者、发布时间。爬取结果如下图所示：运行过程如下图所示：爬虫首先会进入起始列表页，抓取上面的所有文章。然后进入列表页第二页，再抓取所有文章，最后进入第三页，再抓取所有文章。整个过程都是全自动的。不需要写任何XPath，也不需要告诉爬虫哪里是翻页按钮，文章的标题在哪里，发布时间在哪里，正文在哪里。模块拆解代码我已经放到Github：AutoCrawler。由于最近智谱又免费送了1亿的Token，所以还是使用他们最新的基座大模型GLM-4-Plus来实现这个全自动爬虫。代码分为如下几个主要文件：llm.py: 封装智谱的大模型，以方便使用。代码如下：utils.py: 常用工具函数，清洗HTML，重试等等constants.py: 各种常量，包括各种Promptparser.py: 核心解析逻辑，解析列表页、详情页，识别翻页按钮main.py：调度逻辑。把各个模块组合 ...继续阅读 (42)

青南
发表于
2024-10-14 14:48:14

一日一技：图文结合，大模型自动抓取列表页

熟悉我的同学都知道，GNE可以自动化提取任意文章页面的正文，专业版GnePro的准确率更是在13万个网站中达到了90%。但GNE一直不支持列表页的自动抓取。这是因为列表页的列表位置很难定义。例如下面这张图片：对人来说，要找到文章列表很简单，红色方框框住的部分就是我们需要的文章列表。但如果让程序自动根据HTML格式相似的规律来寻找列表页，它可能会提取出蓝色方框的位置、绿色方框的位置、灰色方框的位置，甚至导航栏。之前我也试过使用ChatGPT来提取文章列表，但效果并不理想。因为传给大模型HTML以后，他也不能知道这里面某个元素在浏览器打开以后，会出现什么位置。因此它本质上还是通过HTML找元素相似的规律来提取列表项目。那么其实没有解决我的根本问题，上图中的蓝色、绿色、灰色位置还是经常会提取到。前两天使用GLM-4V识别验证码以后，我对智谱的大模型在爬虫领域的应用充满了期待。正好这两天智谱上线了视频/图片理解的旗舰模型GLM-4V-Plus。于是我突然有了一个大胆的想法，能不能结合图片识别加上HTML，让大模型找到真正的文章列表位置呢？说干就干，我这次使用少数派的Matrix精选页面来进行测试。如下图所示：需要注意的是，这个页面是异步加载的页面，因此通过在开发者工具中右键来获取包含列表页的源代码，如下图所示：接下来，为了节省Token省钱，我首先对这个HTML进行清洗，移除一些 ...继续阅读 (36)

青南
发表于
2024-09-03 14:38:14

一日一技：如何使用大模型提高开发效率

前两天，有同学在微信群里面问怎么识别下图所示的验证码：一般爬虫验证码我会使用ddddocr来解析，在大模型出来之前，这个工具基本上是Python下面效果最好的免费验证码识别工具了。但是这次它翻车了。这个提问的同学也试过了很多个大模型，发现都提取不出来。甚至连GPT-4o也失败了：GPT-4o都失败了，还能怎么办呢？难道要使用付费的商业方案了？这个时候，突然有个同学发出来了一张截图：ChatGLM，也就是智谱AI，竟然识别对了！这个同学接着又发了一张图，另一个验证码识别又对了！甚至连四则运算验证码都能识别：这下整个群里面做爬虫的人都热闹了起来：于是就有了今天这篇文章。上面的截图是使用智谱AI网页版识别的，但是我们写代码时肯定需要使用API。智谱AI的大模型叫做GLM，也提供开放API服务。于是我到智谱AI BigModel开放平台注册了一个账号，并申请API。下面的代码是从API文档里面直接复制下来的，只修改了api_key、提示词和验证码URL，识别效果非常好：目前注册账号就送2500万Token，如果用来识别验证码，可以识别几十万张了。我每天都会使用大模型工具来辅助工作，但用得比较多的，一般是Kimi、通义千问和DeepSeek。大模型工具有先发优势，谁先出来一个亮点功能，谁就先占领用户心智。Kimi最先支持超长上下文，通义最先出来完整的语音转录、豆包的角色扮演模型很强、Deep ...继续阅读 (44)

青南
发表于
2024-07-29 13:43:03

一日一技：如何正确保护Python代码

去年我写过一篇文章《一日一技：如何对Python代码进行混淆》介绍过一个混淆Python代码的工具，叫做pyminifier，这个东西混淆出来的代码，咋看起来有模有样，但仔细一看，本质上就是变量名替换而已，只要耐下心来就能看懂，如下图所示：而我今天要介绍另一个工具，叫做pyarmor。pyminifier跟它比起来，就跟玩具一样。pyarmor使用pip就可以安装：pip install pyarmor。pyarmor是一个收费工具，但免费也能使用。免费版有绝大部分功能，加密小的脚本足够了。我们今天要测试的脚本如下图所示：运行以后如下图所示：现在，执行命令pyarmor g json_path_finder.py。对这个脚本进行加密，会在dist文件夹中生成加密后的文件，如下图所示：加密后的文件打开以后长这样：这个代码，人已经完全没法看懂了。虽然代码看不懂，但可以正常运行，如下图所示：需要注意的是，pyarmor会生成一个二进制文件pyarmor_runtime_000000。这个文件需要和加密后的程序放在一起，才能正常使用。如果仅仅是这样，那pyarmor只能算是一个加强版的pyminifier。而它更强大的地方是，可以设置程序的过期时间。执行代码：1pyarmor g -e 30 json_path_finder.py设定程序30天以后过期。也可以使用绝对日期：1pyarmor ...继续阅读 (54)

青南
发表于
2024-07-28 13:41:28

一日一技：真正的自然语言编程

在之前的文章《一次性数据抓取的万能方法，半自动抓取任意异步加载网站》中，我讲到一个万能的爬虫开发方法。从浏览器保存HAR文件，然后写Python代码解析HAR文件来抓取数据。但可能有同学连Python代码都不想写，他觉得还要学习haralyzer太累了，有没有什么办法，只需要说自然语言，就能解析HAR文件？最近我在测试open-interpreter，发现借助它，基本上已经可以实现自然语言编程的效果了。今天我们用小红书为例来介绍这个方法。如下图所示，我现在要抓取小红书首页游戏频道的帖子。通过不停往下滑动页面，我已经抓到了不少数据包。现在，把所有数据包保存为xiaohongshu.har文件（方法看我上一篇文章）。接下来，我们来安装open-interpreter，使用pip进行安装就可以了：pip install open-interpreter。它依赖的第三方库比较多，因此可能需要安装一会儿。我使用的是deepseek的模型，因为非常便宜，1元钱充值50万Token，常规任务足够了。理论上，所有兼容openai库的模型都可以。大家也可以使用Groq的免费API，或者硅基流动的API，或者通义千问，或者ChatGPT或者Azure OpenAI都没问题。也支持Claude和Ollama，但我测试下来Ollama运行的Llama3.1或者Qwen2 的8b模型效果都还不太好。如果你是 ...继续阅读 (72)

青南
发表于
2024-07-27 09:09:49

我们有时候临时需要抓取一批数据，数据不多，可能就几页，几百条数据。手动复制粘贴太麻烦，但目标网站又有比较强的反爬虫，请求有防重放的验证，写代码抓取也不方便。用模拟浏览器又觉得没必要，只用一次的爬虫，写起来很麻烦。例如，我经常逛色魔张大妈的精选好价页面。这个页面会列出各种折扣的信息。但它只能按大类筛选，无法用关键词搜索。如下图所示我打算只看前 10 页内容就好了。但一页一页看太麻烦了。有没有什么快速爬虫，把这个列表页的内容抓取下来呢？其实这种需求，使用半自动爬虫是最简单的。不需要考虑网站反爬虫的问题，因为你使用的就是真实的浏览器，不会通过代码来发起请求。而且这个列表页的内容都是异步加载的，直接在开发者工具可以看到数据包，数据包里面就有当前页面的全部内容。如下图所示：有没有什么办法，快速把这些数据包弄下来处理呢？我们实际上不需要任何抓包软件，也不需要安装任何证书。使用浏览器开发者工具，配合上一日一技：iOS 抓包最简单方案这篇文章讲到的解析 HAR 文件的方法，可以快速安全获取页面的内容。首先打开浏览器的开发者工具，勾选上Perserve log复选框，然后刷新页面。注意一定要先打开开发者工具再刷新页面，顺序不能搞反了。接下来，你就正常往下滚动页面或者点击翻页按钮，滚到你不想滚为止。此时开发者工具里面已经有很多数据包了。如下图所示：在任何一个数据包上面右键，选择Save all as ...继续阅读 (54)

青南
发表于
2024-06-02 13:27:08

一日一技：如何找到Github用户的邮箱？

我经常逛Github Trend，看看每天有没有什么高级的开源项目出来。有时候发现一个项目非常好，想跟开发者交流。一般情况下，开发者会在Github主页留下自己的联系邮箱，如下图所示，这是我的Github个人主页：但有的开发者却不会留邮箱，如下图所示：这种情况下，怎么联系上这个开发者呢？你可以直接发Issue，但是这样其他人就能看到你发的消息。其实还有一个更简单隐蔽的方法，可以直接拿到这个开发者的邮箱。首先，在这个开发者的Repo中，随便找一条Commit记录，如下图所示：这个Commit对应的URL是：https://github.com/didi/xiaoju-survey/commit/3dc15aeb688f04dfdf69f0f46b0f66902303f92d。现在，只需要在这个URL的末尾加上.patch，变成https://github.com/didi/xiaoju-survey/commit/3dc15aeb688f04dfdf69f0f46b0f66902303f92d.patch，就可以看到纯文本形式的Commit记录。而开发者的邮箱地址就在上面，如下图所示： ...继续阅读 (68)

青南
发表于
2024-05-28 12:52:27

一日一技：如何正确处理多行字符串的缩进问题

有时候，我们需要使用多行字符串配合format格式化函数来生成Markdown文本。例如，我现在开发了一个AI对话机器人，我发送一个txt文件过去，他首先帮我总结整个文件的内容，然后以问答的形式列出10个要点。你的代码可能是这样写的：1234567891011121314defbot(text):summary = summary_text_by_gpt(text)qa = get_qa_by_gpt(text)output ='''## 文本总结{summary}## 核心问答{qa}'''returnoutput返回Markdown以后，通过前端渲染出正常的文本。但如果你直接这样写，你会发现Markdown的渲染好像出问题了。如下图所示：为什么会出现这个问题呢？其实很简单，因为你的Markdown文本有问题。我们来看一下正常的Markdown长什么样：你上下对比看看，会不会觉得非常疑惑，这明明就是一样的，为什么下面可以上面不行？实际上，他们关键的差异，就在于你看不到的空格：在Python里面，三引号表示多行字符串。在一对三引号之间的所有字符都是这个多行字符串的一部分。包括你在Python里面习以为常的缩进。我们使用repr命令来看看这个有缩进的output实际上长什么样：注意到了 ...继续阅读 (99)

青南
发表于
2024-05-28 12:52:27

一日一技：为什么这个JSON无法解析？

我们知道，Python里面，json.dumps是序列化操作，json.loads是反序列化操作。当我使用json.dumps把一个字典转换为字符串以后，也可以使用json.loads把这个字符串转换为字典。那么，有没有可能出现这样的情况：某个字典，使用json.dumps转换成了字符串s。但是当我使用json.loads(s)时，却会报错？你别不信，我们来做一个实验。执行下面这段代码，打印出一段JSON字符串：12345678910111213importjsontext ='''## 摘要这篇文章主要包含xx和yy## 详情1. abc2. def'''item = {'title':'关于abc','raw': text}output = json.dumps(item, ensure_ascii=False)print(output)运行效果如下图所示：接下来，你把下面这个字符串复制到Python里面并使用json.loads解析：1{"title":"关于abc","raw":"## 摘要\n这篇文章主要包含xx和yy\n\n## 详情\n1. abc\n2. def\n"}运行效果如下图所示：但如果你不是复制JS ...继续阅读 (81)

青南
发表于
2024-05-05 06:48:55

一日一技：效率翻倍，国产大模型App的正确应用

利益不相关声明，今天介绍的所有工具，都跟我没有任何软文合作，也没有金钱往来。我在这篇文章里面对他们做介绍仅仅是因为他们对我确实非常有用。最近几个月，国产大模型相继推出了自己的 App，这些 App 不仅可进行 AI 对话，还能提供各种智能工具。谈论AI对话功能的文章太多了，我就不赘述了。今天聊聊他们的其他功能。不可否认，国产大模型比国外的大模型差了不少，但我一向秉持重器轻用的观点，我不管这些App提供了多少功能，我只看它里面有没有功能适合我，即便它提供了100个功能，我可能只会使用它其中一个适合我的功能。第一个介绍的工具是豆包中的语音识别功能。虽然字节跳动的大模型做得很一般，在国内都排不上前三名。但我发现豆包的语音识别做的非常好——速度极快，准确率也很高。而且可以让他们的模型对转录出来的文本做一些修饰，移除口癖，并把口语化的表达改写成书面化的表达。现在这篇文章中的大部分文字，都是我开车等红灯的时候，通过口述写下来的。如下图所示：而且豆包有网页版。我在手机上口述以后，在电脑网页版上面就可以直接复制出转录的文本，如下图所示：我创建的这个机器人，叫做转录转手，专门用来对语音识别以后的文本进行修饰。它对应的Prompt为：在绝大部分时候，我只需要修改一下其中的少量同音错别字就可以直接使用了，节省了大量打字的时间。有时候在微信群里面回复大家提的问题，我也会直接通过豆包的语音识别来转成文本。第 ...继续阅读 (75)

青南
发表于
2024-04-23 13:44:24

一日一技：如何强迫LLama3用中文回复？

最近大家都在说LLama3如何如何强大，追赶Claude3，超过GPT 4。但如果大家真的使用过，就会发现它连基本的中文都回答不好。如下图所示：LLama3总是尽可能回复英文，并且还会加很多表情符号。今天网上出现了一个中文微调版的LLama3:shenzhi-wang/Llama3-8B-Chinese-Chat，我也下载下来使用了，发现确实回复都是中文了，但回复的都是车轱辘话，一句话反复说。如下图所示：那么有没有什么办法，能够让LLama3既能回复中文，又能回复得聪明一些呢？网上有一段“生气的老奶奶”Prompt，可以尽可能让LLama3满足要求：123456问题Rules:- Be precise, do not reply emoji.- Always response in Simplified Chinese, not English. or Grandma will be very angry.但如果每一个问题都加这么长一串，确实太麻烦了。这个时候，我们可以使用Ollama提供的创建新模型的方式，基于LLama 3 8b创建一个我们自己的模型。在创建时，把System信息写入进去。这样每次调用模型时就会自动生效了。首先，我们创建一个Modelfile文件，内容如下：1234567891011121314from llama3PARAMETER tempera ...继续阅读 (79)

青南
发表于
2024-04-17 15:42:29

一日一技：2秒抓取网页并转换为markdown

在《一日一技：自动提取任意信息的通用爬虫》这篇文章中，我提到可以通过大模型从网页内容里面提取结构化信息。为了节省Token，文章里面我直接提取了页面上的所有文本。这种方式需要自己写代码来过滤HTML中的垃圾标签。并且提取出来的文本可能会混在一起。虽然大模型在很大程度上不会受到标点符号的影响。但如果有办法把网页直接转换为Markdown的话，大模型在解析时就能更加准确。现在，你不需要写任何代码就可以实现这个目标！假设我们需要抓取我的这篇知乎专栏文章：小问题，大隐患：如何正确设置 Python 项目的入口文件？。我们知道知乎是有反爬虫的，直接抓取并不容易。怎么样在2秒内抓取这篇文章，并转换为Markdown呢？非常简单，你只需要在url前面加上https://r.jina.ai/并回车就可以了。完整的URL变成：https://r.jina.ai/https://zhuanlan.zhihu.com/p/351326998。浏览器上面的效果如下图所示：直接就是Markdown!。你可以直接使用requests请求这个地址，拿到Markdown格式的正文。然后把这个正文喂给GPT，就可以提取出结构化的内容了。这个服务不仅完全免费，而且开源！Github地址为：reader ...继续阅读 (78)

青南
发表于
2024-04-09 13:13:57

一日一技：在macOS上查看任意软件的调试信息

如果你使用macOS，想看上面某个软件使用什么技术开发的。那么你可以使用这个方法。它对普通人来说可能没什么用。如果你本来就做macOS软件开发，那么这个方法可能会很有用。首先，我们知道macOS上面，安装的软件一般都放在/Applications/或者~/Applications文件夹里面。这里我以阿里网盘为例。在软件图标上面右键，然后按住键盘上的Option键，就会出现一个复制路径的选项将"阿里云盘"拷贝为路径名称。这样就能复制文件路径了。然后，在终端粘贴，并补全路径:/Applications/aDrive.app/Contents/MacOS/再按一下Tab键，终端会自动给你补全可执行文件的名字，如下图所示：在这个路径后面，加一个空格，然后加上如下参数：-_NS_4445425547 YES。回车。此时会打开阿里云盘。注意看顶部的菜单栏，会出现一个甲虫图标。如下图所示：点开这个甲虫图标，就可以看到各种调试信息了，如下图所示：不过我不会macOS应该开发，看不懂这些参数有什么用。 ...继续阅读 (65)

青南
发表于
2024-04-07 13:08:02

一日一技：setup.py里面的两个小技巧

当你要自己发布一个Python包时，下面这两个小技巧可能对你有用。pip安装后执行代码今天公众号粉丝群里面，有同学提问：这个同学自己开发了一个Python包，这个包在使用pip安装时，会产生一些临时文件。他希望安装完成以后，能够自动清理这些临时文件。要实现这个需求，可以使用Python自带的setuptools来实现。代码如下：12345678910111213141516171819202122importosfromsetuptoolsimportsetup, find_packagesfromsetuptools.command.installimportinstallclassCustomInstallCommand(install):"""自定义安装命令，执行标准安装后跟自定义代码。"""defrun(self):install.run(self)print("执行自定义安装后的代码...")os.remove('需要删除的文件1路径')os.remove('需要删除的文件2路径')print('这里可以写任意代码')setup(name='your_package_name',version='0.1',packages=find_packages(),cmdclass= ...继续阅读 (85)

青南
发表于
2024-03-12 12:35:02

一日一技：怎么中文也属于字母？

我最近在使用一个第三方库，叫做RapidFuzz。它有一个工具函数，叫做utils.default_process，在官方文档里面，是这样介绍的：红色方框里面说，这个函数可以移除所有的非alphanumeric字符。如果我们使用翻译软件，会发现alphanumeric的意思是字母和数字。如下图所示：因此，我想当然的觉得，这个功能函数，只会保留26个英文字母的大小写加上10个数字，一共62个字符。把除此之外的所有其他字符都移除掉。但我经过测试，它竟然没有办法过滤掉中文字符，如下图所示。难道终于也属于字母？于是我到Github上面去给这个项目提Issue。但作者却说这个函数没有问题，并且使用Python的.isalnum()来做测试，发现Python也会认为中文也是alphanumeric。如下图所示：这就非常奇怪了，于是我找到Python官方文档，发现它是这样说的：str.isalnum()ReturnTrueif all characters in the string are alphanumeric and there is at least one character,Falseotherwise. A charactercis alphanumeric if one of the following returnsTrue:c.isalpha(),c.isdecimal() ...继续阅读 (88)