前置条件:我的显卡为RTX 4000,8G显存,是不满足官方推荐的VRAM>16G,但最终能跑起来。推理时间略长,但未出席崩溃。
1.下载ollama
1.1官方推荐的方式
curl -fsSL https://ollama.com/install.sh | sh
1.2 直接用代理
官方提供方式太慢了,下面是代理方式
export OLLAMA_MIRROR="https://ghproxy.cn/https://github.com/ollama/ollama/releases/latest/download" curl -fsSL https://ollama.com/install.sh | sed "s|https://ollama.com/download|$OLLAMA_MIRROR|g" | sh
2.拉取gpt-oss 模型(二选一)
1.1 For 20B(台式机&笔记本)
13个G,要下一会儿,耐心点
ollama pull gpt-oss:20bgpt 教程
1.2 For 120B(大型服务器)
ollama pull gpt-oss:120b
3.与 gpt-oss 聊天
准备好与模特交谈了吗?您可以在应用程序或终端中启动聊天:
3.1.简易上手
ollama run gpt-oss:20b
这样只能在命令行里对话,毫无体验可言
3.2升级对话
需要开发一个人机交互界面,比如一个网页,这样体验感会好很多。
将下面的python脚本改名为:gpt20.py
运行:streamlit run gpt20.py –server.port 8080
浏览器打开:http://localhost:8080/
OK:你就看到一个自定义的页面开启装逼模式了,里面的标题都可改,你可以改成狗蛋GPT都也可以。
import streamlit as st import ollama st.set_page_config(page_title="gpt 在线对话") st.title("gpt 在线对话") # 初始化历史记录 if "messages" not in st.session_state: st.session_state.messages = [] # 渲染历史消息 for msg in st.session_state.messages: with st.chat_message(msg["role"]): st.write(msg["content"]) # 输入框 prompt = st.chat_input("请输入问题") if prompt: # 1. 把用户消息写入历史 st.session_state.messages.append({"role": "user", "content": prompt}) with st.chat_message("user"): st.write(prompt) # 2. 调用模型 with st.chat_message("assistant"): with st.spinner("思考中…"): response = ollama.chat( model="gpt-oss:20b", messages=st.session_state.messages ) assistant_text = response["message"]["content"] st.write(assistant_text) # 3. 把助手回复也写入历史 st.session_state.messages.append({"role": "assistant", "content": assistant_text}) # 一键清空按钮 if st.sidebar.button("清空历史"): st.session_state.messages.clear()
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/239952.html原文链接:https://javaforall.net
