IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    又火一个惊艳的AI项目,已开源!

    WinstonChen发表于 2024-07-16 03:12:42
    love 0

    大家好,今天继续聊聊科技圈发生的那些事。

    一、Unique3D

    Unique3D从单视图图像生成高保真度和多样化纹理的网格。

    项目的主旨其实就是,给出一张图片,可以生成它的3D版本,类似的项目之前也有介绍过。不过这个项目还是挺有意思的,在他们的官网上目前有两个板块:

    3D World

    给出一张真实世界的图像,可以生成一个3D视图,比如你可以点进去拖动旋转视角。

    参考demo,比如我们从这张图片开始生成,生成完毕后,可以点进去查看360度不同的视角。

    3D Model

    又或者是,给出一个小人物的2D图片,Unique3D可以帮你生成3D版本的模型。

    比如从这张图片上的这个赛博风小姐姐开始生成:

    你可以上传自己喜欢的环境照片或者人物图片,通过Unique3D来生成相应的3D效果。目前,项目已经在 Huggingface 和 Gradio 上都有了在线体验。

    当然,项目的官方网站上有大量可以在线查看、下载的成熟作品,感兴趣的小伙伴可以直接点进去体验看看。

    在线体验地址:

    https://u45213-bcf9-ef67553e.westx.seetacloud.com:8443/

    https://huggingface.co/spaces/Wuvin/Unique3D

    项目地址:

    https://github.com/AiuniAI/Unique3D

    二、Andrej Karpathy 的演讲

    Andrej Karpathy,不知道大家对这个名字是否熟悉。如果不熟悉,那你对他的师傅一定有所耳闻,AI女神李飞飞。这哥们的经历也挺风云的,前OpenAI创始成员,曾任特斯拉人工智能和自动驾驶部门负责人,从OpenAI离职了又再回归。不过不可否认的是,他肯定是这个星球上超强的AI学者之一。

    去年5月,Andrej Karpathy 刚刚在微软BUILD2023大会上做了一次关于“State of GPT”的演讲,十分精彩,许多网友都说,花那么多金币买来的AI课,甚至不如这次演讲几分钟讲的一半通透。

    最近,Andrej Karpathy 又在伯克利AI黑客松颁奖典礼进行了一次演讲,又对人工智能领域进行了一次新的解读。

    接下来,我们对这次演讲进行一次简单的分享。

    Karpathy 首先提到了人工智能的过去与现在,通过神经网络、NVIDIA、GPT等例子,生动形象地介绍了人工智能这些年来的发展与变化。然后又提到了两部电影《她》和《我,机器人》(iRobot在国内也有被翻译成机械公敌的,就和LOL那个兰博的名字一样。这两部电影我都看过,都是很棒的电影),引出了人工智能在电影中的未来愿景,也表现出他自己对于这样美好图景的期盼。

    最后,Karpathy 介绍了一些学习的好方法。他提到,“在很大程度上,成功来自于反复练习和大量的练习”。他通过很多例子解释了这个概念。还说到,“另一件非常有用的事情是保持多巴胺流动”。

    演讲还包含很多实际的例子,整个过程非常精彩,干货满满,有很多值得我们学习的地方。

    随后他还提出了一个革命性的未来计算机的构想:完全由神经网络驱动的计算机,不再依赖传统的软件代码。

    根据Karpathy的解释,在这种架构下,设备的输入(如音频、视频、触摸,甚至自然语言)将直接传递给神经网络,输出则直接显示为结果,可能是音频/视频,也可能是交互界面在屏幕上。整个计算过程完全依赖于神经网络的处理能力,这种简化的架构将彻底改变计算机的工作方式。

    有网友形象地比喻,这类似于人类大脑和躯体的关系:大脑负责处理,而躯干(外设)负责执行输出。

    演讲视频地址:

    https://www.bilibili.com/video/BV1H4hresENo

    三、Fish Speech

    Fish Speech是一款全新的TTS模型,由Fish Audio 开发。目前已经可以本地部署使用并进行微调了。

    项目的工作流程大致如此:

    • 给定一段 10 秒左右的语音, 将它用 VQGAN 编码.
    • 将编码后的语义 token 和对应文本输入语言模型作为例子.
    • 给定一段新文本, 让模型生成对应的语义 token.
    • 将生成的语义 token 输入 VQGAN 解码, 生成对应的语音.

    目前项目支持中、英、日三种语言。从项目的 demo 中不难看出,作者应该是个原神爱好者。

    接下来,我们可以感受一下具体的效果。咱们截取项目演示中的这个经典例子:

    相信不少小伙伴应该都看过这个视频,愤怒的母亲用全损音质在二次元游戏群怒斥群友不务正业误人子弟。那么,如果让“某二次元游戏”中的角色纳西妲亲自说这段话呢?

    https://cuijiahua.com/wp-content/uploads/2024/07/ai57-15.wav

    是不是别有一番风味?只需要给出一段输入音频作为音源,你可以让任何你想的人来说指定的话了!

    项目已经开源,部署和微调的步骤在项目介绍页都已经给出,感兴趣的小伙伴可以关注一下。

    项目地址:

    https://github.com/fishaudio/fish-speech

    好了,本期的内容就是这么多,我们下期再见!



沪ICP备19023445号-2号
友情链接