当你想要真正动手体验一把本地大模型时,却发现需要获取模型权重、克隆项目代码、执行模型量化、设置环境变量、构建可执行文件等诸多环节才能以命令行的形式问一个测试问题,更不要提数十个可能需要手动调整的参数了。
Ollama——一个简明易用的本地大模型运行框架。随着围绕着 Ollama 的生态走向前台,更多用户也可以方便地在自己电脑上玩转大模型了
很长一段时间里,本地大模型和基于 llama.cpp 的应用都局限于少数极客和研究者的圈子,较高的上手门槛将许多普通人拒之门外。Ollama 很好的解决了这个问题!
Ollama地址:ollama.com
根据电脑系统(macOS/Linux/Windows)下载: ollama.com/download
github地址:github.com/ollama/ollama
Loading...
以中文微调过的 Llama2-Chinese 7B 模型为例,下述命令会下载接近 4GB 的 4-bit 量化模型文件,需要至少 8GB 的内存进行推理,推荐配备 16GB 以流畅运行。
ollama pull llama2-chinese
下载完成后,使用 run 命令运行模型,可直接将消息附在命令后,或留空进入对话模式,对话模式内置了几个以斜杠引出的命令:
# 单条输入
ollama run llama2-chinese "天空为什么是蓝色的?"
如图问答内容:你好?\ 你知道ChatGPT吗?