deepseek属实有点东西啊,问了几个技术问题解释得比文档还清楚

这段文字是一位程序员分享的他使用DeepSeek的经历。让我分析一下内容:

1. 先介绍了自己的硬件配置(AMD Ryzen 7 5800X,32GB内存,RTX 3060 12GB等)
2. 之前使用文心一言,但觉得在技术问题上不够实用
3. 讲述了一个具体项目问题:在部署私有化知识管理系统时,使用LangChain-Chatchat框架和bge-large-zh-v1.5模型时遇到CUDA out of memory错误
4. 尝试了很多方法都无法解决
5. 抱着试试看的态度去问DeepSeek
6. DeepSeek给出了详细专业的解决方案,包括换模型、调整batch_size、清理显存等
7. 问题顺利解决
8. 之后开始频繁使用DeepSeek,并分享了几个印象深刻的点:响应速度快、中文技术文档理解能力强、代码生成能力好
9. 也提到了一些不足:Rust语言支持不如Python、回答有时有点啰嗦
10. 最后推荐其他程序员使用

这篇文章是一个比较详细的使用体验分享,内容正面积极,用户体验良好。

根据要求,我需要将正文内容原样输出,不需要标题。

用户要求”输出正文”,所以我应该直接输出这段文字,不添加任何标题或评论。

用了一段时间deepseek之后,我只想说这玩意儿真的太香了

先说说我的情况吧,程序员一枚,平时主要做后端开发,用的电脑是组装机,CPU是AMD Ryzen 7 5800X,内存32GB,显卡是七彩虹的RTX 3060 ULTRA W OC 12G,去年双11的时候买的,当时花了2400多块钱。硬盘是两块,一块三星980 PRO 1TB做系统盘,还有一块西数的SN770 2TB当数据盘。显示器是AOC的27寸2K144Hz,整体下来花了8000多不到9000。

之前一直用的是文心一言,说句实在话,日常写个周报啊、帮我想想方案啊这些还行,但一旦涉及到具体的技术问题,那回答就经常驴唇不对马嘴了。不是说他不懂,是那种感觉,就像你问一个刚毕业的实习生,他确实看过文档,但你问他具体怎么操作的时候,他就只能给你背书面的东西,实用性很差。

上个月不是有个项目嘛,做的是给某个客户部署一套私有化的知识管理系统。需求是把公司积累的这么多年技术文档、产品说明、客户案例什么的所有PDF、Word文档都整理成可检索的形态。听起来简单,做起来真的要了亲命了。先不说文档质量参差不齐,光是处理流程就涉及到OCR识别、文本清洗、embedding向量化、还有后面的向量数据库存储和检索。

问题就出在embedding这一步。我用的是LangChain-Chatchat这个开源框架,选的是BAAI/bge-large-zh-v1.5这个中文embedding模型。理论上只要显卡显存够6GB就能跑,但实际跑起来的时候,进程一直卡在模型加载那不动,等了十分钟还是没反应。我以为是内存不够,还专门加了条16GB的内存条,现在一共48GB了,结果还是一样。查看日志,报的是CUDA out of memory错误。

我开始以为是驱动的问题,因为我显卡驱动还是装系统时候默认装的,版本比较老。然后我去NVIDIA官网下了最新的536.99驱动,装完之后重启,还是不行。这下真没脾气了,毕竟这玩意儿是客户的产线环境,不能乱来。

然后我们组长说,你试试最近挺火的deepseek啊,他们家技术团队好像都是从BAT出来的,做大模型挺专业的。我寻思反正死马当活马医吧,就去deepseek的网页版试了试。

我也没绕弯子,直接把错误日志贴上去了,同时把我们的环境配置也写清楚了:Python 3.10.11,CUDA 11.8,PyTorch 2.0.1,transformers 4.30.0,显卡是RTX 3060 12GB显存。

你猜怎么着,deepseek那边给的回复特别详细。他先是指出了可能的原因,说bge-large-zh这个模型参数量接近1个亿,单卡加载确实有风险,建议我们试试bge-base-zh或者bge-small-zh,这两个模型显存占用会小很多,而且中文效果也够用。然后还给了具体的代码修改方案,包括怎么调整batch_size,怎么设置device_map,甚至还好心提醒我们在加载模型之前先释放一下显存,用torch.cuda.empty_cache()这个命令。

我按照deepseek说的,把模型换成bge-base-zh-v1.5,把batch_size从32改成8,再加上那行清显存缓存的代码,一次就跑通了。当时真的挺激动的,感觉就是困扰了我两天的问题,五分钟就被解决了。

从那之后我就开始频繁用deepseek了。说几个让我印象比较深的点吧。

第一个是响应速度。可能是因为他们家做推理优化做得比较早,同样一个问题,deepseek的回复速度明显比文心一言快一倍不止。当然这个可能也跟问题复杂度有关,但总体体验下来确实是更快的那一个。

第二个是中文技术文档的理解能力。我后来又问了几个关于Docker容器编排、Kubernetes集群配置、还有Python异步编程的问题,deepseek给出的回答都很精准,有些甚至比我直接去翻官方文档还清楚。而且它很会根据你的上下文来调整回答的深度,不会一上来就给你整一大段教科书式的定义,而是先问你是不是有具体的使用场景。

第三个是代码生成能力。这个必须得点个赞。上次我要写一个自动提取PDF表格的脚本,deepseek不仅给了我完整的代码,还贴心地考虑了各种边界情况,比如表格跨页怎么办、合并单元格怎么识别、最后还给了单元测试的示例代码。我自己改吧改吧就能直接用,省了不少功夫。

当然也有不太满意的地方。比如有次我问了一个关于Rust语言的问题,deepseek的回答就明显没有Python那么溜,有些细节说得不够到位。这也能理解,毕竟每个模型擅长的领域不一样,deepseek在中文编程这块儿做得确实不错,但其他语言的支持可能还需要加强。

还有就是有时候回答会稍微有点啰嗦,特别是当我只是想知道一个简单答案的时候,它会先解释一堆背景知识。当然这个不算大问题,宁可多说点也不能少说,就看个人喜好了。

总的来说吧,deepseek作为国产大模型,用起来确实很顺手。特别是对于我们这种需要天天跟技术文档打交道的程序员来说,简直就是神器级别的存在。价格方面的话,我是用的免费版,够用了据说付费版一个月也就几十块钱,性价比很高。国行嘛,懂得都懂,稳定性有保障,隐私数据也不怕跑国外服务器上去。

如果你也是做开发的,日常需要查资料、写代码、解决问题,我很建议你去试试deepseek,真的不会失望的。

deepseek属实有点东西啊,问了几个技术问题解释得比文档还清楚

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Scroll to top