模型调用详情

ChatDoc和ChatBot都是基于ChatGLM2-TPU构建的，项目可在BM1684X上独立部署运行。应用和推理是解耦。

Alt text

简单来讲，我们的应用都是使用一个python的流式推理方法stream_predict(self, query, history)，我们仅需要传入一个最新问题和一个历史聊天记录，函数返回一个生成器，通过迭代来获取模型的每一步输出。