这个理论几年之前就一直在我的脑海中构思与发酵,它描述了信息的生成与制造之间不可分割的关系所导致的直接挑战与不可调和的后果。这一年,随着AIGC的飞速进步,我越来越确信该理论所假设的前提条件是成立的,所以它所导致的后果也几乎一定会发生。所以我觉得在这个时间点,可以和大家分享一下这个还不成熟的理论。如果你愿意读完它,那你一定会和我产生一样的感受。
这个理论的直白化描述如下:
信息荒原理论
“随着信息的制造成本逐步降低,信息的集中地转而会变为信息的荒原。”
推论 1:
“普通人只能拥有少量的无效信息,而大量的有效信息将掌握在极少部分人或组织手中。”
推论 2:
“随着信息数量的上升,有效信息的价值(以及其衍生的价格)会逐步下降,但到达一定阈值之后又会逐步上升。”
以上陈述中,“有效信息”的定义为:任何以文本、图像、语音、视频等媒介为载体,并包含有价值、或具有衍生价值潜力的虚构(如艺术作品)、非虚构、事实性正确的信息。
该理论基于以下假设:
假设条件1:信息的生产速率远远大于信息的消费速率
- 这点非常好理解,信息的制造者来自全世界的个人、公司、组织的集合,而信息的消费者仅为其中的单一个体或子集;
- 随着人工智能的发展,诸如生成对抗网络、图生成网络、风格迁移等方法,信息的生成成本(及真实性)将极大程度降低;
- 而目前消费消息的唯一方法就是读(文字),看(图片、视频)与听(语音、博客),这三者的消费效率逐步降低,共同特点是需要消耗一定量的时间与精力(可理解为人这个计算机处理信息的能力是有限的),但消费效率又极大依赖于个人的理解与判断能力,且很难随着生成速率的提高而提高。
假设条件2:没有一种绝对的可以判断有效信息与无效信息的方法
- 如果将信息的筛选过程比喻成一个包含输入与输出的滤波器,即$input \rightarrow filter \rightarrow output$;
input
指个人在社会及生活中可以收集到的所有信息;
- 而
filter
是指对这些信息有效性的判断,filter主要依赖于:个人判断,朋友推荐,机器算法推荐;
- 最后
output
为有效的价值信息,值得理解、存储、利用;
假设条件3:一个人判断信息的能力会随着其掌握的有效信息数量等比提高
- 所谓见多识广,阅历多了更有助于对新信息的判断;
- 反之,在没有有效信息储备的前提下,更容易让无效消息干扰有效信息的获取;
- 然而,在以上假设(1)与假设(2)的前提下,对于0初始状态,该能力很难得到成长;
- 而大型企业和组织因为具有更强大的资源(如算力、信息差等),有更强的能力应对该挑战。
思考 1. 关于推荐算法的反思
- 李彦宏公开反对推荐算法,张一鸣在关于视频号的演讲中,提到朋友推荐也胜于机器推荐算法。对此两个观点,我持有相同态度。
- 目前的推荐算法具有很强的信息茧房效应,很容易陷入局部最优,很难通过外部扰动脱离。
- 在推荐算法下,新信息的获取效率非常低,但是反过来说,反而增加了信息的获取成本。
思考 2. 关于AIGC生成算法对社会的破坏性
- 目前基于生成对抗网络(Generative Adversarial Network, GAN)的技术在图片、音频生成,以及风格迁移上崭露头角,典型的代表有Midjourney,DALL-E以及Stable Diffusion。
- 另外,基于大规模语言模型(LLM, Large Language Model)的GPT-3,以及当下火热的chatGPT,也可能将文字创作的速度指数升高。
- 以上对社会的破坏性不仅在于将互联网变为海量数据垃圾的填埋场,还将产生大量的低端工作失业问题,从传统的AI占领工业到未来的占领文字、艺术创作与服务行业。
如何破局
- 建立数据信任:未来需要更加强调可信来源的重要性,及基于类似区块链技术的去中心化认证机制分辨AI生成与非AI生成内容。
- 发展数据工具:通过AI对信息进行识别与整合,但又存在鸡生蛋(指内容由AI生成),而蛋又生鸡(指内容又由AI识别)的问题。
- 发展社会支持:技术的发展乃大势所趋,历史不断证明这个过程是无法阻碍的(也不应该被阻碍)。站在社会层面,即需要控制技术发展带来的风险,也要去容忍技术发展带来的风险与变革,并且针对风险提供相应的预防与补救措施。
- 以上为宏观手段,对于普通人,我们应该顺势所趋,在其中找到机会,在变化中寻求不变。提高自己对数据的判别能力,以及最大程度减少信息与技术发展对于个人生活与事业的影响。
The post “信息荒原”理论及思考 appeared first on YF Robotics Laboratory.