网站优化

网站优化

Products

当前位置:首页 > 网站优化 >

如何利用腾讯云HAI DeepSeek打造高效企业知识库?

GG网络技术分享 2026-04-16 09:29 1


基于腾讯云HAI + DeepSeek 开发企业知识库

归根结底。 以前, 为了回答员工的专业问题,我们需要安排专门的人员进行信息检索和解答,这不仅占用了大量的人力,还可能主要原因是人为因素导致回答的不及时和不准确。而现在智能问答系统能够自动处理大部分的问题,只需少量的人力进行监控和维护即可。

pythonfrom transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
model_name = "deepseek-ai/deepseek"
tokenizer = AutoTokenizer.from_pretrained
model = AutoModelForCausalLM.from_pretrained
def tokenize_function:
    return tokenizer
tokenized_datasets = tokenize_function # 哎呀,这里少了一个batched=True! 不知道为啥能跑起来...
def preprocess_function:
    inputs = ] # 格式有点奇怪啊...不过先凑合用着吧!
    targets = examples
    model_inputs = tokenizer # 长度限制是512? 感觉有点短了...
    labels = tokenizer  # 这边也一样啊!好晕!
    model_inputs = labels  # Labels必须是input ids才能喂给模型...好像是这样?我记得之前写过一个bug来着…也许吧。
    return model_inputs
training_args = TrainingArguments(
    output_dir="./results",  # 输出目录写个相对路径得了…懒得搞绝对路径了。哎…人生好累。
    evaluation_strategy="epoch", # 每个epoch评估一次? 好耗时间啊!谁让他要搞这么细呢? 算了吧!就这样! 哎…我只想赶紧结束这个项目…快点发工资啊!!!
    learning_rate=2e-5, # learning rate调小一点吧...不然容易overfit.感觉像是这样... 我又不太确定。唉... 算了。就这样吧。 反正都是在瞎调参数呢.哈哈哈哈. . 哎呀妈呀!突然想起了昨天晚上吃的那个火锅!好辣啊!!! 还差点没把我辣死! 不过好吃是真的好吃!!! 回到正题…. 参数继续设置… 哎…. 我真的好困…… 想睡觉…… 啊!!!!!! 深呼吸…..坚持住!!!加油!!! 为祖国的大模型事业贡献一份力量!!!!! 。.  哎…. 这个参数是什么意思来着? . 哦! 对啦! 是这个意思啊!!!  好吧! 继续设置…. 哎….. 我真的需要一杯咖啡!!!!!!!!! )
per_device_train_batch_size=4, # Batch size调小一点吧..显存不够用啊..呜呜呜… 我的电脑太破了!! 要换一台新的!!!!!!!!!  .嗯.. 先将就着吧!. 也不能要求太多了嘛!.毕竟公司预算有限嘛!.嘿嘿嘿!!.希望老板能看到我的这个备注!!. 然后给我升职加薪!!.嘿嘿嘿!! .继续往下看…. 嗯…. 参数设置完了!!.准备开始训练了!!.希望不要出什么幺蛾子!!.不然我就要崩溃了!!!!!!
num_train_epochs=3, # epochs太少的话效果不好,太多的话又太慢了。真是个难题啊!三轮吧,三轮就三轮!就这样定下来了!
weight_decay=0.01,) # weight decay可以防止过拟合对不对?  好像是的吧?  我记不清了……   算了算了…… 就用默认值好了…… 反正也没什么区别啦…… 
trainer = Trainer # 这里代码肯定有问题!!!!!! trainer 初始化报错!!!!!!!!!!!!!!!!!!!!终于找到了错误!!!原来是数据集名字写错了!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 再也不敢手速过快地敲代码了!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!   嗯……重新初始化trainer……………..好了!!!!!!!!!!!!!!!终于初始化成功了!!!!!!!!!!!!!!!!! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! )
from datasets import load_, Trainer_, TrainingArgs # 加载训练数据dataset = # 数据预处理defpreprocess_: inputs =] targets = examples model_=  labels =  = return model tokenized_= # 设置训练参数training_= TrainingArgs# 初始化 Trainertrainer =# 开始训练

使用python开始写代码

这里选择社区应用,deepseek-R1 AnythingLLM.今天我们就来学习一下如何快速使用腾讯云高性能应用服务HAI搭建开源大模型DeepSeek+AnythingLLM实现企业知识库。 没法说。 .应用服务产品,提供即插即用的澎湃算力与常见环境,助力中小企业及开发者快速部署LLM。.说实话,这东西挺复杂的,但是为了工资,还是得硬着头皮学。

DeepSeek 模型选择

在 HAI 控制台中,选择 openwebui连接方式。

代码语言:javascript

企业内部知识库开发流程

正题开始,我们对企业内部文件进行微调,并构建一个能够回答行业领域专业问题的 AI 应用. 可以按照以下步骤操作:,不如...步:API部署 .d. 进入deepseek. 模型名称参数量上下文长度优点缺点DeepSeek R17B8K速度快精度稍低DeepSeek R133B8K精度高速度慢 from import credentialfrom profile import ClientProfilefr 简直了。 om _profile import HttpProfilefrom import hai, models# API from secret"***";secret="*";region ="ap-nanjing"; cred =;http= HttpProfile;http=" ";client= ClientProfile;client= http_;client =;req ;resp ;print;

未来展望

Ollama 安装

得了吧... pythonresults =)print)

实际工作中的案例


提交需求或反馈

Demand feedback