你想当皇帝吗?是真的可以下一道圣旨:让全国人民吃榴莲,让满朝文武吃香菜,让天下豆腐脑从此只能是甜的!!!
听起来很离谱,但这正是模拟游戏最迷人的地方:玩家把一个念头扔进复杂系统里,然后观察世界如何反应。百姓会不会造反?财政会不会崩盘?
过去,这些反应大多来自开发者提前写好的剧本。但到了 AI 时代,游戏有机会摆脱“预设好一切”的限制,让玩家的每一次选择都引发新的连锁变化。
过去两年,“AI 游戏”几乎成了行业最热的叙事。但现实是,AI 已经深度进入游戏生产流程,却还远没有真正改写玩家体验。大量公司把 AI 用在代码、美术、QA 里,本质上仍是用 AI 工具做传统游戏。
而《历史模拟器:崇祯》作为一款“AI 原生”游戏,它试图把 AI 作为玩法本身。
玩家不是从固定选项里做选择,而是用自然语言下一道诏书。AI 要判断这道诏书是否符合当前国库、民心、技术条件、官员关系和历史环境,再把结果反写进整个世界状态。
这也是它和其他 AI 文游最大的区别,玩家写完以后会“改变世界”,而且世界不是用文字表现的,而是由一个个具体的可以量化的数值组成。
游戏在 Steam 上线不到一周,已有 700 多条玩家评测,并出现过千人级同时在线。截至 5 月 14 日,评价处于“褒贬不一”,玩家一边承认它新鲜好玩,一边也在集中吐槽稳定性、扣费、Bug 和 AI 推演的不确定性。
《历史模拟器:崇祯》的意义不只是“又一款 AI 游戏出现了”。它更像一次公开实验,当 AI 从生产工具走进玩法核心,游戏到底会变得更自由,还是更不可控,玩家到底会不会买账,tokens 的账单能不能算过来。
游戏如何模拟崇祯治国?
《历史模拟器:崇祯》于 5 月 8 日在 Steam 正式发售,定价 48 元。玩家一次性购买游戏本体后,会获得初始 AI 推演额度,后续可按需购买额外推演额度。
我尝试了一下,在崇祯的第二年,发布一次完整诏书的回合,用了 0.1 千的用量,差不多 1 块钱。
游戏的玩法可以概括为一套循环,玩家扮演崇祯皇帝看国势 → 接时政任务 → 问大臣 → 写诏书 → AI 推演 → 世界数据变化 → 新危机出现。
玩家可以与官员对话,听取他们对朝政的判断。不同官员背后有不同立场,比如魏忠贤代表阉党利益,面对东林党时往往会给出更强硬的对抗建议。
作为皇帝,玩家可以采纳这些意见,将其写入圣旨,也可以完全按自己的想法治理国家。
当玩家发布圣旨后,历史进程会因此发生变化。相比一般 AI 文游,或豆包里的模拟类玩法,《历史模拟器:崇祯》的世界状态更细致,也更像一个真正会运转的策略系统。
玩家可以查看不同阶层的满意度。比如农民满意度持续恶化,就可能引发农民起义。
各地驻军数量、武器装备、城防水平,也会随着玩家的决策不断变化。如果玩家如果长期推动科技治军,军队装备就可能越来越先进,王朝真的撑得足够久,造出原子弹也不是完全没可能。
为了避免玩家第一次当皇帝时不知道该从哪里下手,游戏还设计了任务系统。
国家爆发财政危机,玩家可以选择特事特办,抄家的抄家,加税的加税。但这些手段也会带来后果,玩家为了赚钱激化了地方不满,系统又可能生成新的任务,像平息江南抗税风波。
如此循环往复,玩家的每一次选择都会成为下一轮危机的起点。
游戏中还加入了崇祯能力值系统。玩家可以通过选择提升不同维度的能力,从而解锁或强化不同政策,在一定程度上增加了策略深度。
《历史模拟器:崇祯》的关键不在于 AI 更会写明末故事,而在于它把自然语言变成了策略游戏的输入方式。玩家说出口的每一道圣旨,都会被系统翻译成财政、民心、军队、派系和地方状态的变化,进而塑造下一轮危机。
这也带来一个更核心的问题:这套看起来像“自由下诏”的体验,背后到底是大模型即兴发挥,还是一套被严格约束的工程系统?带着这些问题,我们和《历史模拟器:崇祯》制作人追青聊了聊。
对话追青:有玩家玩了 70 个小时,最后把原子弹造出来了
硅星人:可以先请您介绍一下自己、青干工作室目前的团队情况,以及内部是怎么分工的?
追青:我是《历史模拟器:崇祯》的制作人,团队目前不到 10 人,全部专注在 AI 原生游戏这个方向上。没什么分工,因为就我一个策划,其他都是技术。美工是 AI 做的,大家也能看得出来。
硅星人:你们现在认为最核心的玩家群体是哪一类?是明史爱好者、策略游戏玩家、AI 尝鲜用户,还是其他人群?
追青:策略游戏玩家是最重要的。我们希望做一个大众题材,虽然明史是一个小众题材,但相对于传统的 AI 内容跟作品来说,我们希望尽可能大众一些,让更多普通的,可能对ai没那么了解的人也能参与进来。
什么是 AI 原生游戏
硅星人:现在行业里对 AI 原生游戏的定义还不太明确。你们如何理解 AI 原生游戏?
追青:我定义很简单,你把这个模块从游戏里剥离出去,核心玩法体验能不能玩、有没有差异性。如果完全剥离出去,游戏玩都玩不了,那就是 AI 原生游戏。
硅星人:为什么会选择崇祯和明末作为第一款游戏的历史背景?这个选择是因为明末更适合 AI 推演,还是因为它更有话题度?
追青:AI 推演需要基于 AI 自己的理解和知识能力,目前大部分史料基本上是明清为主,越到现代越多,明朝是一个史料上比较完善的朝代。明末是一个既有话题度,史料也比较丰富,大家可能也比较有兴趣的朝代。
硅星人:这个项目从立项到上线大概花了多久?为什么你们选择在六个月前这个时间点做,而不是更早?
追青:从立项到封闭内测,我们用了四十多天,从真正开始做,到最后上线,大概用了 6 个月。我们和一般 AI 文游基于上下文的基础框架不太一样。市面上已有方案在长记忆逻辑和状态变量控制上还有一些不足,所以我们自己研发了一套系统。另一方面,模型调用等成本也是关键因素。以今天提供给玩家的体验来看,同等质量下的模型成本,和一两年前相比已经有了很大差异。所以我们觉得半年前是刚刚好的时间,技术上已经相对成熟了。
不是简单喂史料,而是搭一套推演系统
硅星人:如果一年后某个大模型本身就具备很强的推演能力,你们觉得你们这套系统的壁垒会变强,还是会变弱?
追青:要从两方面考虑。首先,大模型本身毕竟不是用于我们这个用途的,需要我们目前的系统去约束得到这个效果。其次,更好的模型性能,意味着约束条件可以给得更宽泛一些,模型可能自己就能判断意图来达到效果。
硅星人:外界可能会理解成,你们只是把很多真实史料输入给模型,再让它推演。但从你们的角度看,这套系统真正做了什么?
追青:不是游戏内输入,主要是模型这边的训练策划。因为这些史料在绝大部分模型里都是训练过的,只不过相关知识的唤醒能力有差异。我们本身确实会输入一些信息,但本质上输入的并不是史料,而是当前状态。
比如玩家在游戏过程中造出燧发枪、搞步兵方阵,这样的技术状态也会被输入到模型里,但不一定是真实的历史信息。
硅星人:能不能把这套系统简单拆开讲一下?比如它如何理解玩家意图、约束历史合理性,并把结果变成游戏状态?
追青:可以分为三层。第一层,模型输出的内容得符合历史情况,还得符合用户当前的数据情况,这是初始状态的约束。
第二,要判断用户的意图,比如用户想搞飞升或修仙,在大部分情况下我们认为不科学的东西,一般会被认为用户希望整活,但这个活不太符合游戏调性,结果可能就不是很好。在传统 AI 对话里,你说要修仙,有时候它会直接给正向反馈,但我们这不一定是这样。
第三,意图判断完了推演出一个故事,还要把这些故事转化成数据存储到游戏的数据库框架里。基本上是这三层:状态、意图判断、状态保留。
硅星人:我可以这样理解吗?比如系统识别铁的产能是 20 吨,但玩家提出的方案需要 500 吨铁,系统就会判断当前生产条件不支持,所以不会完全执行这条指令?
追青:对,但因为我们是回合制,一般不会驳回,会一部分实现、做到一半,或者计划是好的但执行不下去之类的。
硅星人:你们内部有没有一套评分系统,用来判断哪些架空内容可以接受,哪些内容会破坏历史逻辑?
追青:有是有,但给得很宽泛。比如不能直接天降一个原子弹到库里,但一步步研发我们可能允许。
每一回合如何变成下一个历史状态
硅星人:这款游戏的记忆系统是如何运作的?每个回合的状态是怎么保存和延续的?
追青:基本上依靠两块,传统上叫通过上下文记忆去实现。我们通过一个叫步进式逻辑,每个回合就是一个状态,只需要保存前一个状态,进行增量或修改,保存到下一个状态,一步一步以状态机步进式的方式控制状态稳定,这是我们做的主要内容。除此之外,传统的一些记忆压缩、清晰感知,把特殊内容反复提取强化,这些都有处理。
硅星人:游戏里涉及很多官员任职、叛乱度等精确数值,也有大量环境文本。你们是怎么处理这些记忆的?又没有尝试过 RAG?
追青:我们早期尝试过 RAG,但后来发现效果并不好。因为这类游戏本质上要求系统理解整个当前局势,而不是只根据某个关键词去检索相关信息。RAG 的问题在于,玩家提到什么,它才容易关注什么。比如玩家一直盯着科技线,不代表陕西的民变就可以被系统忽略。
数值方面分两类,一是大模型本身对数值区间有理解,比如每个数值都有一个框的判定,10-20 是一个概念,20-50 是另一个概念。另一方面我们本身也有一些硬的数值框架,比如某地民心降到 0了,会提醒大模型说该报叛军了,有这样的信息感知模块。
硅星人:玩家有没有可能通过某种方式“破解”大模型,比如声称自己之前没有下过某道诏书?你们有没有针对这类情况做防护?
追青:一般来讲模型攻击还是少部分人去做。更多的是玩家这样的策略是引导 agent 去做反思,因为 agent 有时候会忘掉一些东西。所以一般没有做一些特别重的对抗措施。但记忆系统是一直维持一致的,记下来了就是记下来了。
模型选择:效果、成本、速度的不可能三角
硅星人:大模型生成内容有一定概率性和不稳定性。同一个存档、同一道诏书,如果重复执行,结果会完全一样,还是会有差异?
追青:一般大方向一致,但细节上肯定有所差异。比如同样去抄一个人的家,都能抄到,但给 100 万两还是 150 万两可能有点差异,差别不会特别大。
硅星人:你们选择模型时,最核心的指标是什么?是历史知识、推理稳定性、延迟、价格,还是角色扮演能力?目前国内有哪些模型比较符合这类游戏需求?
追青:最重要的是时间,因为你是娱乐产品,不是工具或生产力产品,不能让玩家等很久。第二个是成本,玩家是来娱乐的,花很多钱是反直觉的。另一个是效果,就是正确率。一般叫不可能三角:效果、成本、速度。目前会觉得 DeepSeek、阿里的千问系列都比较符合需求。
硅星人:通常来说,一次完整回合的平均推理成本大概是多少?如果模型调用失败,会怎么处理?
追青:要看使用的模型,一般认为一轮完整流程/完整回合,会花几毛钱。大部分失败本质上是模型厂商那边的波动,比如之前遇到过 DeepSeek 整体挂了十几分钟,确实对我们来说是不可抗力。
硅星人:传统游戏可以测试数值、关卡是否会卡住,但 AI 游戏每次输出都不一样。你们是怎么做测试的?内部有没有一套固定指令?
追青:我们会有一套 benchmark 系统,判断符不符合预期,跑 100 次是不是都符合预期,或者说符合预期的比例大概多少。有模型判断为主,也有程序化的判断。目前比较关注如世界状态的数据修改,成功率要求 99% 以上。
玩家为什么付费
硅星人:你们现在采用的是买断加积分的模式。为什么选择这种商业模式?有没有考虑过高价买断、模型免费,赌玩家使用量不会超过成本的模式?
追青:包括月卡也好,买断也好,其实都是赌博,我们不确定各个方式的成本和预期是怎么样的。但我们想把这个东西的实际情况展示给大家,也是给未来做一个验证,看这种方式到底大家买不买账。目前看到玩家的反馈,我们后续会计划开放API。
硅星人:以目前这个模式来看,你们赚钱了吗?你们认为 AI 原生游戏更合理的付费单位是什么?
追青:整体上来讲不可能赚钱,因为我们现在的 token 价格基本上都是按照成本价去给的。你刚刚提到说问我们是希望卖token还是卖内容还是卖服务,对于这个问题,我们的认知是,做游戏其实是包装起来的一套完整服务给到玩家,不应该区分这些内容。像网络游戏不可能说服务器成本单独算钱,在未来我觉得是不太合理的。不过目前,我们《历史模拟器:崇祯》的商业化做的非常简单。
硅星人:未来如果开放 API,你们会怎么设计?是继续沿用内部积分制,还是允许玩家直接调用第三方 API,完全绕过你们的计费体系?
追青:目前计划是允许玩家用自己的 API,相当于允许玩家绕过我们的服务。
数据、留存和游戏负担:有人玩了70小时,造出原子弹
硅星人:玩家每次游玩都会产生很多行为数据。这些数据会不会反哺你们的系统?比如未来做新游戏时,系统会不会因为这些数据而更懂玩家指令?
追青:目前没有直接使用玩家数据。会从整体统计学数据上考虑一些问题,但玩家具体的输入输出涉及到隐私,不会去使用。
硅星人:你们现在最看重哪个运营指标?看网上提到大部分玩家第五年就挂了。从 5 月 8 日上线到现在,留存率和平均使用时长有没有比较精确的数据可以分享?
追青:第五年挂的大部分是因为策略游戏大家先玩一玩上手,然后再重新开档。我们目前比较关注的是的是留存和玩家单日在游戏的游玩时长。昨天是 75.1% 的次日留存。平均在线时长,非工作日大概是在七小时左右。
我们对于数据还是比较满意的,用户喜欢玩的是确定,虽然我们现在有很多的缺点,在 bug 上和 AI 的稳定性上,其实还有很多的问题,但我们还是做了一些独特的一些体验。
硅星人:这款游戏的玩家自由度很高。你们有没有遇到明显超出预期的玩家行为?
追青:超出预期的很多。原本说玩家攀科技可以,但不能攀太离谱,比如造原子弹有点过分。之前有一个玩家玩了 70 个小时,反复一步步攀科技,先搞工业革命、发电、搞铀浓缩,最后把原子弹造出来了。那这个我们觉得也OK,玩家用努力达到了他想要的结果,我们也不会试图去剥夺玩家的这种乐趣。
硅星人:关于游戏性,我自己也是策略游戏玩家,常常会遇到前期很兴奋、后期比较疲惫的情况。你们是如何平衡玩家负担和游戏自由度的?
追青:玩家负担说高也高、说低也低。高在你要打字、亲手去、要去想,不能公式化搞一些东西。轻量的是操作量,只有打字本身或语音,基本上就是核心操作内容。不像文明那样每个城都要看生产、资金等。
硅星人:市面上也有很多 AI 游戏,你觉得目前 AI 原生游戏最适合发展的方向是什么?
追青:首先要区分商业化和非商业化。酒馆算不算 AI 原生,我觉得算,但它是开源社区的感觉,不是商业化产品。商业化产品目前建议还是文字内容、对话、推理是最直接明确快速的方向。比较大的割裂点是,有能力开发 AI 的人不会来做游戏,做游戏厂商对 AI 也没那么了解,没有那么多资源去做 AI。