資策會數位轉型研究院─FIND中心

大型語言模型（LLM）代理的最新進展促成了複雜的代理工作流，使模型能夠自主檢索資訊、呼叫工具，並針對大型語料庫進行推理以完成任務。儘管檢索增強生成（RAG）在代理系統中的採用率不斷增加，但過去的研究缺乏對檢索策略、代理架構與工具呼叫模式之間交互作用的系統性比較。

傳統獨立的檢索管道通常會將檢索到的文件串接成提示詞，然而，代理式檢索（Agentic Search）具有迭代與代理導向的特性。在實務中，代理接收到排名列表後不會將其視為終點，而是會自行決定要搜尋什麼、發出多少次查詢，以及評估結果是否足夠或需要進一步優化，這項典範轉移模糊了單純的「檢索演算法」與「模型能力」之間的界線。

檢索策略的技術對比

在代理式搜尋（Agentic Search）的架構中，AI找資料的手法主要可以分成以下三大門派：

1.語意檢索（Semantic Search）：簡單來說，這就是讓系統去「理解」你的意思，而不是死找字眼，它很擅長處理「換句話說」的情境。不過，這個做法的缺點是會高度依賴底層模型的品質與硬體資源，而且，雖然它連「拐彎抹角」提到的內容都抓得到，但如果對話紀錄太長、雜訊太多，它也很容易因為「主題看起來很像」而撈出一堆不相干的干擾資訊。

2.詞彙檢索（Lexical Search）：這就是最直接的「關鍵字比對」，像是工程師常用的grep或是正規表達式，直接在文章裡找一模一樣的字串。這招的好處是超級省資源，完全不需要搞複雜的向量索引。只要AI下對了關鍵字，抓出來的資料就會極度精準；但反過來說，如果AI猜錯了字眼，跟文件裡的寫法有落差（也就是詞彙不匹配），那就真的什麼都撈不到。

3.混合檢索（Hybrid Approaches）：這招就是直接把前面兩種方法混在一起用，截長補短。例如，系統可以把「關鍵字搜尋」和「語意搜尋」各自找出來的結果，透過一種叫 RRF（倒數排名融合）的技術直接合併成一份綜合清單，過程中完全不需要去複雜地換算兩種搜尋的分數，既省事又有效。

代理框架（Agent Harness）的分類與影響

代理框架負責管理工具呼叫的迴圈，包含建構提示詞、分派工具呼叫、接收結果，以及決定是否終止迭代。研究指出，將相同的底層模型（例如Claude Opus 4.6）在不同的框架間切換，其準確率的變化幅度與在固定框架內替換檢索器相當。

1.自定義框架（Custom Harnesses）：開發人員使用代理框架或自定義程式碼所建置，這允許對系統提示詞、工具定義、上下文建構與結果格式化進行細粒度的控制。例如，可以實作動態提示詞（根據查詢量身定制系統提示詞）與明確的上下文視窗管理。

2.供應商原生的終端機框架（Provider-Native CLI Harnesses）：例如Claude Code、Codex與Gemini CLI，這類系統將工具呼叫嵌入到基於Shell的介面中，模型可以直接存取系統公用程式，如grep、find與cat。雖然設定成本極低，但犧牲了自定義框架中可用的細粒度控制。

工具呼叫與結果交付架構

搜尋結果如何交付給模型，會對上下文視窗的利用率與代理處理大型結果集的能力產生深遠影響。

1.內嵌交付（Standard / Inline）：搜尋結果直接作為工具回應訊息附加到對話上下文中，模型可立即進行推理，優點是流程簡單。然而，大型結果集會與系統提示詞及對話歷史競爭空間，產生上下文壓力（Context rot）並降低長效任務的效能。

2.程式化交付（Programmatic / File-Based）：搜尋結果被寫入磁碟，模型僅收到檔案路徑或摘要指標。這將檢索結果的大小與上下文壓力脫鉤，代價是流程較為間接，代理必須執行額外的工具呼叫（例如透過grep或cat讀取檔案）來存取結果，這增加了延遲並要求模型理解基於檔案的工作流。

實證數據：精準度、雜訊抗性與系統擴展

根據針對LongMemEval基準測試子集的實證評估，可觀察到以下關鍵現象：

1.內嵌配置下的詞彙檢索優勢：在標準內嵌交付模式下，詞彙檢索（inline grep）的表現一致優於密集檢索（inline vector）。例如，在使用Chronos框架與Gemini 3.1 Flash-Lite模型的組合中，內嵌grep準確率為86.2%，而內嵌vector僅為62.9%。

2.程式化交付帶來的挑戰：程式化交付會改變任務性質，將其轉變為「定位、開啟並整合構件」的多步驟工作流。當模型的執行能力脆弱時，準確率會獨立於檢索品質之外發生崩潰。例如Codex與GPT-5.4的組合在內聯grep下準確率達93.1%，但在程式化grep下大幅衰退至55.2%。

3.雜訊擴展效應：當混入更多無關的對話紀錄（Distractors）時，向量檢索通常在工作階段數量較少時表現較強。然而，兩種檢索方式並非隨著「雜訊增加」而平行衰退，其表現與干擾項的採樣方式、框架特定的文字記錄以及模型的隱式停止策略密切相關。

結論與技術限制

在代理式工作流中，檢索策略的選擇與代理架構及工具呼叫範式的交互作用極深，在諸如Chronos系統與供應商原生CLI之間，grep檢索的準確率往往高於向量檢索，特別是在內嵌結果交付時。然而，即使底層的對話資料相同，整體的評分依然強烈依賴於所使用的框架與工具呼叫風格。

此技術現象目前仍有其限制，LongMemEval測試主要針對依賴字面證據（如精確日期、計數、偏好與跨度）的長文本記憶問答。在這些情境下，由於答案通常可以從逐字片段中提取，詞彙工具可能特別有幫助。若應用領域的證據鮮少是字面形式（例如對改寫過的摘要進行科學綜合、大量視覺圖表的文件或程式碼語意），密集檢索與混合路由的表現可能會有所不同。這代表grep並非在所有情況下都能擊敗向量搜尋，而是能在特定任務分佈與語料庫下取得端到端的優勢。

封面圖片來源：本文作者以AI生成

參考資料來源：

1.Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. （2024）. Self-RAG: Learning to retrieve, generate, and critique through self-reflection. Proceedings of ICLR.

2.Chen, M., Tworek, J., Jun, H., et al. （2021）. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.

3.Formal, T., Lassance, C., Piwowarski, B., & Clinchant, S. （2021）. SPLADE v2: Sparse lexical and expansion model for information retrieval. arXiv preprint arXiv:2109.10086.

4.Gao, Y., Xiong, Y., Velingker, A., et al. （2024）. Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997.

5.Karpukhin, V., Oguz, B., Min, S., Lewis, P., Wu, L., Edunov, S., Chen, D., & Yih, W.-t. （2020）. Dense passage retrieval for open-domain question answering. Proceedings of EMNLP.

6.Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., et al. （2020）. Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems.

7.Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. （2024）. Lost in the middle: How language models use long contexts. Transactions of the ACL.

8.Lumer, E., Gulati, A., Nizar, F., Hedroits, D., Mehta, A., Hwangbo, H., Subbiah, V. K., Basavaraju, P. H., & Burke, J. A. （2025）. Tool and agent selection for large language model agents in production: A survey. Preprints.

9.Packer, C., Fang, V., Patil, S. G., Lin, K., Wooders, S., & Gonzalez, J. E. （2023）. MemGPT: Towards LLMs as operating systems. arXiv preprint arXiv:2310.08560.

10.Qin, Y., Hu, S., Lin, Y., et al. （2023）. Tool learning with foundation models. arXiv preprint arXiv:2304.08354.

11.Sen, S., Lumer, E., Gulati, A., & Subbiah, V. K. （2026）. Chronos: Temporal-aware conversational agents with structured event retrieval for long-term memory. arXiv preprint arXiv:2603.16862.

12.Sumers, T. R., Yao, S., Narasimhan, K., & Griffiths, T. L. （2023）. Cognitive architectures for language agents. arXiv preprint arXiv:2309.02427.

13.Thakur, N., Reimers, N., Rücklé, A., Srivastava, A., & Gurevych, I. （2021）. BEIR: A heterogenous benchmark for zero-shot evaluation of information retrieval models. Advances in Neural Information Processing Systems （Datasets and Benchmarks）.

14.Wu, D., Wang, H., Yu, W., Zhang, Y., Chang, K.-W., & Yu, D. （2025）. Long MemEval: Benchmarking chat assistants on long-term interactive memory. Proceedings of the International Conference on Learning Representations （ICLR）.

15.Yang, J., Jimenez, C. E., Wettig, A., Liber, K., Yao, S., Narasimhan, K., & Press, O. （2024）. SWE-agent: Agent-computer interfaces enable automated software engineering. arXiv preprint arXiv:2405.15793.

16.Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. （2023）. ReAct: Synergizing reasoning and acting in language models. Proceedings of ICLR.

Agent時代的新式檢索範例與架構解析

Agent時代的新式檢索範例與架構解析