全部文章 — gwarket.

RAG 系統從 77 分優化到 88 分的完整記錄。Query Rewriting 讓 Retrieval Failure 減少 60%、Type A 達到滿分 5.00。六方比較表顯示 RAG v2 追平 Context Stuffing，但能處理 3.8 倍資料量。附優化決策過程和 20 題樣本局限性分析。

Aaron Hung

2026.03.24給系統設計者

RAG 系統的 77 分怎麼來的？一次完整的 Retrieval 品質診斷

逐題標記 100 個 chunks 的檢索相關性，發現 60% 品質問題來自 Retrieval、Generation Failure = 0。Retrieval Precision 從 Type A 的 36% 降到 Type C 的 16%，Hybrid Search 互補效果只在 40% 題目有效。附三大優化方向和理論上限推導。

Aaron Hung

2026.03.24給系統設計者

RAG 實測：用 200 份文件跑出來的數據，跟你想的不一樣

用 200 份文件跑四組對照實驗：Context Stuffing 14 檔 88 分、64 檔 93 分、關鍵字搜尋 59 分、RAG Hybrid 77 分。RAG 用 2% 資訊量達到 83% 效果，是唯一能處理 462K tokens 規模的方案。附不同規模下的最佳方案選擇指南。

Aaron Hung

2026.03.24給系統設計者

建一條 RAG Pipeline 之前，你需要做的六個技術決策

從 Chunking 策略到 Top-K 設定，建 RAG pipeline 的六個關鍵選型決策完整記錄。每個決策寫清楚考慮了什麼、選了什麼、為什麼、犧牲了什麼。用 200 份中英文混合文件的實際數據驗證，附 pipeline 效能指標。

Aaron Hung

2026.03.24給決策評估者

你的資料真的需要 RAG 嗎？三組 Baseline 實測告訴你

200 份文件的知識庫，該不該用 RAG？實測三組 baseline：Context Stuffing 14 檔 88 分、64 檔 93 分、關鍵字搜尋 59 分。結論：小資料集不需要 RAG，但關鍵字搜尋的語義歧義讓跨文件問題崩壞到 1.80 分。附人工覆核驗證和 token 計算。

Aaron Hung

2026.03.24給系統設計者

RAG 之前你該知道的事：四種資料檢索方法完整比較

用白話拆解四種資料檢索方法的原理和 trade-off：向量搜尋靠語義、BM25 靠精確匹配、Hybrid Search 兩者互補、知識圖譜做多跳推理。大部分企業場景用 Hybrid Search 就夠了。附選型建議和常見問題。

Aaron Hung

2026.03.22給觀察者

NVIDIA OpenShell：讓自主 AI Agent 安全執行的三層架構

NVIDIA 推出 OpenShell，作為 NemoClaw 開源堆疊的治理層，專門解決自主 AI Agent 在安全、能力、自主三者之間的根本矛盾。核心設計是「程序外政策強制執行」，把安全限制放在 Agent 執行環境之外，讓 Agent 就算遭到 prompt 注入攻擊也無法繞過。三層架構（沙箱、政策引擎、隱私路由）分別對應技能隔離、行為管控、資料分流三個面向，相容 OpenClaw、Claude Code、Codex、Cursor，零程式碼修改即可部署。

Aaron Hung

2026.03.22給系統設計者

用 Multi-Agent 架構管理企業內容生產：三個 AI Agent 的分工設計實錄

設計三個專職 AI Agent 處理企業內容生產：文章寫手、網路資訊專家、網站架構師。單篇產出從 3-6 小時壓縮到 30-60 分鐘，從素材到上線全流程自動化。完整拆解 Agent 拆分邏輯、人機分工邊界、AI 填補偵測機制，以及實際踩過的坑。

Aaron Hung

2026.03.22給決策評估者

8 萬人告訴 Anthropic 他們想從 AI 得到什麼 — 答案不是「更多生產力」

Anthropic 對 159 國、81,000 名 Claude 使用者進行史上最大規模 AI 質性研究。67% 持正面態度，但最深刻的發現是：人們同時抱持期待與恐懼，受益最多的使用者也最擔心依賴。開發中國家比已開發國家更樂觀，因為 AI 是繞過資源門檻的均衡器。前四大需求加總超過 57%，指向同一件事 — 人們不想用 AI 做更多事，而是少做不重要的事。

Aaron Hung