栖居在城市的大地上,分享城市中的感想予你,在留言板留下你的足迹,希望你在这里有所收获,祝幸运

计算机


Amphion:是一个开源工具包,可实现语音、声音和歌唱功能,将一首歌的声音换成另一个歌手的声音。还支持声音转换、歌声合成、文本到音频、文本到音乐等功能。

github地址:github.com/suaifu/gpfuAmphion

Loading...

体验地址:huggingface.co/amphion

主要功能

1、文本到语音:将文本转换为口语化的语音。

  • 应用:用于制作语音助手、自动语音回复系统、为视障人士阅读文本等。

2、歌声合成:创造虚拟歌手的声音,可以从文本或旋律生成明星的歌声。

  • 应用:用于音乐制作、虚拟偶像创作等。

3、声音转换:改变一个人的声音,使其听起来像另一个人。

  • 应用:用于娱乐、声音设计、匿名通信等。

4、歌声转换:将一首歌的演唱者的声音转换成另一个演唱者的声音。

  • 应用:用于音乐制作、个性化音乐体验等。

5、文本到音频:不仅将文本转换为语音,还可以转换成其他类型的音频,如音效或音乐片段。

  • 应用:用于创造音效、音乐片段、音频故事等。

6、文本到音乐:从文本描述中生成音乐。

  • 应用:用于自动音乐创作、根据情感或故事情节创作音乐等。

模型支持:该工具包支持多种模型和架构,如FastSpeech2、VITS、Vall-E、NaturalSpeech2等,用于不同的音频生成任务。
声码器支持:Amphion 支持多种神经声码器,包括基于GAN的声码器(如MelGAN、HiFi-GAN)、基于流的声码器(如WaveGlow)、基于扩散的声码器(如Diffwave)等。
数据集支持:Amphion 统一了开源数据集的数据预处理,支持多种数据集,如AudioCaps、LibriTTS、LJSpeech等。

点击 论文下载

Attention Is All You Need (Transformer) 是当今深度学习初学者必读的一篇论文。


Attention Is All You Need
注意力是你所需要的一切

摘要
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.0 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature.
  注意力是你所需要的一切主导的序列转导模型是基于复杂的递归或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了一个新的简单的网络结构–Transformer,它只基于注意力机制,完全不需要递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更胜一筹,同时也更容易并行化,需要的训练时间也大大减少。我们的模型在WMT 2014英德翻译任务中达到了28.4 BLEU,比现有的最佳结果(包括合集)提高了2 BLEU以上。在WMT 2014英法翻译任务中,我们的模型在8个GPU上训练了3.5天后,建立了新的单模型最先进的BLEU得分,即41.0分,这只是文献中最佳模型的训练成本的一小部分。

继续阅读

Stable Diffusion是一个文本到图像的潜在扩散模型,机器学习模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它经过训练可以逐步对随机高斯噪声进行去噪以获得感兴趣的样本,例如生成图像。
它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以我们也可以在自己的机器上运行它,进行图像生成。

GitHub代码地址:github.com/CompVis/stable-diffusion

Loading...

colab运行地址:点击此处 ,可以试用进行学习
github运行示例地址:点击此处
使用的prompt:
Wes Anderson style Red Panda, reading a book, super cute, by kanō tan'yū, highly detailed and colored, in the art style of ukiyo - e, inspired by utagawa kuniyoshi
生成的图片:
temp-Image0c-ZM71

Awesome-GPTs
GPTs查找,相关GPTs的Prompt,可以供学习使用。
点此处:文件下载 下载地址2

GPTs是OpenAI推出的自定义GPT。GPTs是Generative Pre-trained Transformers的缩写。
在首届OpenAI开发者大会上,OpenAI宣布允许用户构建自定义ChatGPT完成特定的个人和专业任务。用户能快速创建自己专用版本的ChatGPT,可以用于帮助教孩子数学或解释棋盘游戏的规则,等等。

github地址:github.com/lxfater/Awesome-GPTs

Loading...

只需跟DocsGPT聊聊天,就可以查找各种文档中的信息。
目前支持的文档类型包括TXT、PDF 、ZIP、MD、RST。

github地址:github.com/arc53/DocsGPT

Loading...

靠大模型(比如GPT-3.5)、Meta相似性搜索库Faiss以及LangChain来驱动。

步骤: 拥有Docker环境
1.git clone https://github.com/arc53/DocsGPT.git
2.设置文件 .env


OPENAI_API_KEY=Yourkey
 SELF_HOSTED_MODEL=false
 VITE_API_STREAMING=true

3.执行 ./run-with-docker-compose.sh