科技 - 城市日记

大模型解决实际问题的运用路线（方案步骤）

2024-02-01
科技,技术
1272 次阅读
0 评论

大模型相关的技术路线，匹配场景，什么样的场景下用什么样的场景方案，有可能做出什么样的效果，它的投产比怎么样，成本投入怎么样，用什么样的人去做一系列解决方案。

面对大模型解决实际问题的方案步骤：

第一，老板们业务们会提出很多相关的场景可能性。当提出可能性的时候，我们能提出可行性，输出相应的一二三四五。
第二，另一个方面场景大概是技术路线的第一层第二层第三层（第一层：Prompt提示工程，第二层：LangChain等Auto Agent智能体，第三层：fine-tune）与场景相匹配。
第三，相应的大概能做出什么效果的样子，效果能否匹配商业化的什么目标，产品目标要求。
第四，大概需要什么样的投入（第一步，一两个人整理什么样的数据，问题和答案控制在多少字内是合理的。第二步，在企业微信做什么样的数据抽取，用什么样的数据处理工具做二次的过滤和筛选。第三，用这些数据做第一轮精调之后，我们大概会得到什么样的结果，中间需要一到两个的工程师，工程师需要掌握什么样的技术，经过多长时间大概会得到一个什么样的对话能力和效果）
算力成本，人力成本=整个成本对应最终效果是否值得投入

多语言视觉文字生成与编辑模型AnyText

2024-01-09
科技,技术
1300 次阅读
0 评论

AnyText支持中文、日文、韩文、英语等多种语言，可帮助电商、广告平面设计、电影制作、动画设计师、插画师、网页设计、UI设计师、数字营销等领域的人员，提供高精准、自定义的文生图像服务。

github地址：github.com/suaifu/gpfAnyText

体验地址：

摩搭社区 modelscope.cn/studios/damo/studio_anytext/summary
HuggingFace huggingface.co/spaces/modelscope/AnyText

效果：

MetaGPT: 智能体框架

2024-01-04
科技,技术
1292 次阅读
0 评论

具体介绍网址：docs.deepwisdom.ai/zhcn

MetaGPT输入一句话的老板需求，输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等
MetaGPT内部包括产品经理 / 架构师 / 项目经理 / 工程师，它提供了一个软件公司的全过程与精心调配的SOP

MetaGPT全方位的帮你完成任务，可以作为教程文案助手，摄影师，软件公司，辩论，狼人杀，虚拟小镇

使用:

安装
pip install metagpt
完整的安装方法可在安装部分找到。

配置

import os
os.environ["OPENAI_API_KEY"] = "sk-..."
os.environ["OPENAI_API_MODEL"] = "gpt-4"

完整配置不同LLM API（比如OpenAI、Azure、Anthropic等）的方法可在配置部分找到。

State of Open Source AI Book

2023-12-28
科技,技术
1336 次阅读
0 评论

开源人工智能书籍的现状指南 - 2023年

在当前快节奏的开源创新混乱中，作为一名数据科学家/机器学习工程师/开发人员，在有早9晚5工作的情况下，很难跟踪所有的创新。过去一年该领域取得了巨大进展。

通过这个指南来解决你的FOMO问题，涵盖了开源AI领域中最重要的各个类别，从模型评估到部署。它包括一个词汇表，供您快速查阅新框架和工具的定义。

每个部分顶部都包含一个简短概述（TL;DR）。我们概述了每个主题的优缺点和总体背景。然后我们会更深入地探讨。示例包括数据模型训练和部署实现方式。

阅读地址：book.premai.io/state-of-open-source-ai/
github地址：github.com//premAI-io/state-of-open-source-ai

Amphion：实现AI转语音、声音和歌唱功能。

2023-12-26
科技,技术
1558 次阅读
0 评论

Amphion：是一个开源工具包，可实现语音、声音和歌唱功能，将一首歌的声音换成另一个歌手的声音。还支持声音转换、歌声合成、文本到音频、文本到音乐等功能。

github地址:github.com/suaifu/gpfuAmphion

体验地址：huggingface.co/amphion

主要功能

1、文本到语音：将文本转换为口语化的语音。

应用：用于制作语音助手、自动语音回复系统、为视障人士阅读文本等。

2、歌声合成：创造虚拟歌手的声音，可以从文本或旋律生成明星的歌声。

应用：用于音乐制作、虚拟偶像创作等。

3、声音转换：改变一个人的声音，使其听起来像另一个人。

应用：用于娱乐、声音设计、匿名通信等。

4、歌声转换：将一首歌的演唱者的声音转换成另一个演唱者的声音。

应用：用于音乐制作、个性化音乐体验等。

5、文本到音频：不仅将文本转换为语音，还可以转换成其他类型的音频，如音效或音乐片段。

应用：用于创造音效、音乐片段、音频故事等。

6、文本到音乐：从文本描述中生成音乐。

应用：用于自动音乐创作、根据情感或故事情节创作音乐等。

模型支持：该工具包支持多种模型和架构，如FastSpeech2、VITS、Vall-E、NaturalSpeech2等，用于不同的音频生成任务。
声码器支持：Amphion 支持多种神经声码器，包括基于GAN的声码器（如MelGAN、HiFi-GAN）、基于流的声码器（如WaveGlow）、基于扩散的声码器（如Diffwave）等。
数据集支持：Amphion 统一了开源数据集的数据预处理，支持多种数据集，如AudioCaps、LibriTTS、LJSpeech等。

页面

分类

科技