国产AI文档实战对比

任务

  • 最近因工作需要,从网上下载了一篇德语的工程专业文献,需要翻译一下。

模型

  • 共使用了5款国产 AI 模型,均使用官方网页版,免费用户登录。
    • Kimi
      • 选择最新的 K2 模型
    • 豆包
      • 官网没有模型选择,选择深度思考:自动
    • 通义千问
      • 选择最新的 Qwen 3 模型
    • 文心一言
      • 选择最新的 文心X1 Turbo 模型
    • DeepSeek
      • 关闭深度思考,选择最新 V3 版本
    • 腾讯元宝
      • 选择混元模型

指令

  • 采用了较为简单的 Prompt
你是一位精通中文和德语的土木工程专家,请将附件的德语指南翻译成中文,以markdown格式输出,采用盾构工程、土木工程的专业术语,采用严谨的学术风格。不清楚的专业术语查询专业学术网站。请先完整翻译第1章,如果一次输出不完,就分成多次输出。并输出其中的表格,输出图片的标题和内容介绍。

结果

Kimi

  • 非常顺利地完成了翻译
  • 专业术语翻译得比较好
  • 会将一个普通段落按 Markdown 列表格式输出,不好说是优点还是缺点,因人而异。
  • 附录中非常复杂的表格排版不行,但一般表格没有问题。

豆包

  • 界面非常友好,左边栏为对话框,右边栏显示上传的文档。
  • 非常顺利地完成了翻译
  • 专业术语翻译得比较好
  • 段落输出保持原文格式,不会象 Kimi 一样改成 Markdown 列表格式
  • 复杂表格输出比 Kimi 差一些,简单表格没有问题

通义千问

  • 无论打开或关闭 深度思考 模式,都无法准确地提取文档内容,无法准确定位到指明要翻译的位置
  • Qwen 开源模型是做得非常好的,但官网这个至少在文档阅读提取方面做得很差,指令遵循也不行

文心一言

  • 文心一言在界面上显式地有一个调用工具开关,并且在思考过程中调用 Python 来读取文档内容,但是最终在尝试多次后仍然无法正确读取文档内容,最终以失败告终
  • 因为无法读取文档内容,输出结果时开始了喜闻乐见的一本正经胡说八道的表演

DeepSeek

  • 顺利翻译完前两章,输出结果也还不错
  • 但开始第三章的翻译时,就卡住了,提示:服务器繁忙
  • 更换 R1 模型,仍然提示:服务器繁忙
  • 看来 DeepSeek 的服务器资源确实不足,可能都拿去训练 R2 了

腾讯元宝

  • 打开 T1 深度思考模式,顺利翻译完前五章,输出结果喜欢作提炼总结,原文遵循性不太好;在要求翻译后面内容时,在思考链中显示大量重复的原文内容,然后卡死
  • 关闭 T1 深度思考模式,开始的四章基本正常,从第五章开始就自行添加内容,指令遵循性变差。

总结

  • 文档级翻译目前表现较好的是 Kimi豆包
  • 底层模型很重要,但对于一个现实任务,对结果有影响的因素太多了,其余几家在这方面还有差距。