模型调用详情

ChatDoc和ChatBot都是基于ChatGLM2-TPU构建的,项目可在BM1684X上独立部署运行。应用和推理是解耦。

Alt text

简单来讲,我们的应用都是使用一个python的流式推理方法stream_predict(self, query, history),我们仅需要传入一个最新问题和一个历史聊天记录,函数返回一个生成器,通过迭代来获取模型的每一步输出。