deepseek属实有点东西啊，问了几个技术问题解释得比文档还清楚

这段文字是一位程序员分享的他使用DeepSeek的经历。让我分析一下内容：

1. 先介绍了自己的硬件配置（AMD Ryzen 7 5800X，32GB内存，RTX 3060 12GB等）
2. 之前使用文心一言，但觉得在技术问题上不够实用
3. 讲述了一个具体项目问题：在部署私有化知识管理系统时，使用LangChain-Chatchat框架和bge-large-zh-v1.5模型时遇到CUDA out of memory错误
4. 尝试了很多方法都无法解决
5. 抱着试试看的态度去问DeepSeek
6. DeepSeek给出了详细专业的解决方案，包括换模型、调整batch_size、清理显存等
7. 问题顺利解决
8. 之后开始频繁使用DeepSeek，并分享了几个印象深刻的点：响应速度快、中文技术文档理解能力强、代码生成能力好
9. 也提到了一些不足：Rust语言支持不如Python、回答有时有点啰嗦
10. 最后推荐其他程序员使用

这篇文章是一个比较详细的使用体验分享，内容正面积极，用户体验良好。

根据要求，我需要将正文内容原样输出，不需要标题。

用户要求”输出正文”，所以我应该直接输出这段文字，不添加任何标题或评论。

用了一段时间deepseek之后，我只想说这玩意儿真的太香了

先说说我的情况吧，程序员一枚，平时主要做后端开发，用的电脑是组装机，CPU是AMD Ryzen 7 5800X，内存32GB，显卡是七彩虹的RTX 3060 ULTRA W OC 12G，去年双11的时候买的，当时花了2400多块钱。硬盘是两块，一块三星980 PRO 1TB做系统盘，还有一块西数的SN770 2TB当数据盘。显示器是AOC的27寸2K144Hz，整体下来花了8000多不到9000。

之前一直用的是文心一言，说句实在话，日常写个周报啊、帮我想想方案啊这些还行，但一旦涉及到具体的技术问题，那回答就经常驴唇不对马嘴了。不是说他不懂，是那种感觉，就像你问一个刚毕业的实习生，他确实看过文档，但你问他具体怎么操作的时候，他就只能给你背书面的东西，实用性很差。

上个月不是有个项目嘛，做的是给某个客户部署一套私有化的知识管理系统。需求是把公司积累的这么多年技术文档、产品说明、客户案例什么的所有PDF、Word文档都整理成可检索的形态。听起来简单，做起来真的要了亲命了。先不说文档质量参差不齐，光是处理流程就涉及到OCR识别、文本清洗、embedding向量化、还有后面的向量数据库存储和检索。

问题就出在embedding这一步。我用的是LangChain-Chatchat这个开源框架，选的是BAAI/bge-large-zh-v1.5这个中文embedding模型。理论上只要显卡显存够6GB就能跑，但实际跑起来的时候，进程一直卡在模型加载那不动，等了十分钟还是没反应。我以为是内存不够，还专门加了条16GB的内存条，现在一共48GB了，结果还是一样。查看日志，报的是CUDA out of memory错误。

我开始以为是驱动的问题，因为我显卡驱动还是装系统时候默认装的，版本比较老。然后我去NVIDIA官网下了最新的536.99驱动，装完之后重启，还是不行。这下真没脾气了，毕竟这玩意儿是客户的产线环境，不能乱来。

然后我们组长说，你试试最近挺火的deepseek啊，他们家技术团队好像都是从BAT出来的，做大模型挺专业的。我寻思反正死马当活马医吧，就去deepseek的网页版试了试。

我也没绕弯子，直接把错误日志贴上去了，同时把我们的环境配置也写清楚了：Python 3.10.11，CUDA 11.8，PyTorch 2.0.1，transformers 4.30.0，显卡是RTX 3060 12GB显存。

你猜怎么着，deepseek那边给的回复特别详细。他先是指出了可能的原因，说bge-large-zh这个模型参数量接近1个亿，单卡加载确实有风险，建议我们试试bge-base-zh或者bge-small-zh，这两个模型显存占用会小很多，而且中文效果也够用。然后还给了具体的代码修改方案，包括怎么调整batch_size，怎么设置device_map，甚至还好心提醒我们在加载模型之前先释放一下显存，用torch.cuda.empty_cache()这个命令。

我按照deepseek说的，把模型换成bge-base-zh-v1.5，把batch_size从32改成8，再加上那行清显存缓存的代码，一次就跑通了。当时真的挺激动的，感觉就是困扰了我两天的问题，五分钟就被解决了。

从那之后我就开始频繁用deepseek了。说几个让我印象比较深的点吧。

第一个是响应速度。可能是因为他们家做推理优化做得比较早，同样一个问题，deepseek的回复速度明显比文心一言快一倍不止。当然这个可能也跟问题复杂度有关，但总体体验下来确实是更快的那一个。

第二个是中文技术文档的理解能力。我后来又问了几个关于Docker容器编排、Kubernetes集群配置、还有Python异步编程的问题，deepseek给出的回答都很精准，有些甚至比我直接去翻官方文档还清楚。而且它很会根据你的上下文来调整回答的深度，不会一上来就给你整一大段教科书式的定义，而是先问你是不是有具体的使用场景。

第三个是代码生成能力。这个必须得点个赞。上次我要写一个自动提取PDF表格的脚本，deepseek不仅给了我完整的代码，还贴心地考虑了各种边界情况，比如表格跨页怎么办、合并单元格怎么识别、最后还给了单元测试的示例代码。我自己改吧改吧就能直接用，省了不少功夫。

当然也有不太满意的地方。比如有次我问了一个关于Rust语言的问题，deepseek的回答就明显没有Python那么溜，有些细节说得不够到位。这也能理解，毕竟每个模型擅长的领域不一样，deepseek在中文编程这块儿做得确实不错，但其他语言的支持可能还需要加强。

还有就是有时候回答会稍微有点啰嗦，特别是当我只是想知道一个简单答案的时候，它会先解释一堆背景知识。当然这个不算大问题，宁可多说点也不能少说，就看个人喜好了。

总的来说吧，deepseek作为国产大模型，用起来确实很顺手。特别是对于我们这种需要天天跟技术文档打交道的程序员来说，简直就是神器级别的存在。价格方面的话，我是用的免费版，够用了据说付费版一个月也就几十块钱，性价比很高。国行嘛，懂得都懂，稳定性有保障，隐私数据也不怕跑国外服务器上去。

如果你也是做开发的，日常需要查资料、写代码、解决问题，我很建议你去试试deepseek，真的不会失望的。

deepseek属实有点东西啊，问了几个技术问题解释得比文档还清楚

deepseek属实有点东西啊，问了几个技术问题解释得比文档还清楚

发表回复 取消回复

发表回复取消回复