RAG 听起来很动听，但实施起来难点会很多。

### 1、文档的加载和分割

* 不同的格式文档，需要不同的处理
* 相同格式，不同内容的，也要做不同的处理（一般按业务定制解析为好）
  * 比如加载不同的博客、电商、视频的网页，特别需要做定制解析
* 相同内容，不同应用目的，也可能需要不同的处理（一般按业务定制解析为好）
  * 比如加载 excel，不同的用况需要不同的数据整理
* 内容加载后，太长还需进一步分段（要兼顾 token-size）


精准的，要按需定制（框架提供的加载与分割能力，过于技术性）

### 2、文档管理与检索

* 如何检索到最佳结果，供大模型参考？
* 有结果后，如何构建提示语？（精准场景，需要根据业务来构建提示语模板）
