Context Engineering 實戰：如何讓 AI 準確解析產品評論？三種 Prompt 策略的深度對比

當你需要從大量產品評論中萃取結構化資訊時，如何設計 Prompt 才能獲得最佳結果？本文透過 12 個真實測試案例，深入比較三種 Context Engineering 策略的實際表現。

📌 前言：為什麼 Context Engineering 如此重要？

在 AI 應用開發中，我們經常需要從非結構化文本中萃取特定資訊。以產品評論分析為例，我們想要自動識別：

情感傾向（正面/中性/負面）
產品類型（手機、筆電、充電線等）
問題描述（如果有的話）

看似簡單的任務，實際執行時卻充滿挑戰：AI 可能回傳錯誤格式、誤判情感、或無法處理諷刺語氣。這時候，Context Engineering — 也就是如何設計 Prompt — 就成為決定成敗的關鍵。

🧪 實驗設計：12 個挑戰性測試案例

為了全面評估不同策略的效果，我設計了 12 個涵蓋各種真實場景的測試案例：

測試案例分類

短評測試（2 個）：簡短的正面和中性評論
純正面評論（2 個）：完全滿意，沒有明顯問題
純中性評論（2 個）：客觀描述，無明顯情感傾向
極長評論（1 個）：300+ 字，混合多種情感
邊界案例（3 個）：
- 模糊問題（負面但說不出具體問題）
- 多產品評論（同時評論多個產品）
- 諷刺語氣（表面稱讚實則批評）
棘手案例（2 個）：
- 表面正面實則負面
- 極度負面多重問題

評估指標

格式正確率：是否產出有效的 JSON 格式
情感準確率：情感判斷是否符合預期
綜合成功率：結合格式和情感的整體表現

🎯 三種策略詳解與實測結果

策略 A：Baseline（最小指令集）

Prompt 設計：

Extract sentiment (positive/neutral/negative), product, and issue from this sentence.
Return as JSON.

Sentence: {user_sentence}

實測結果：

❌ 格式正確率：33.3% — 只有 4/12 個案例符合規範
✅ 情感準確率：75.0% — 9/12 個案例判斷正確
📊 綜合成功率：54.2%

常見問題：

使用 issues 陣列而非 issue 字串
對無問題的評論回傳 null 而非空字串 ""
輸出包含 markdown 程式碼區塊

適用場景：快速原型開發、對格式要求不嚴格的應用

策略 B：Rules-based（明確規則）

Prompt 設計：

Task: Extract fields from the sentence.
Return ONLY a JSON object with these exact keys: sentiment, product, issue.

Rules:
- sentiment must be one of: positive, neutral, negative
- For positive reviews with no real issues, issue should be empty string
- For sarcastic reviews, focus on the actual negative meaning
- Return ONLY valid JSON, no comments, no markdown code blocks

實測結果：

✅ 格式正確率：100% — 完美解決格式問題！
✅ 情感準確率：75.0% — 與 Baseline 持平
📊 綜合成功率：87.5% — 大幅提升！

主要改進：

完全消除格式錯誤
正確處理空值情況
成功識別諷刺語氣

適用場景：需要穩定 JSON 輸出的生產環境

策略 C：Few-shot Learning（提供範例）

Prompt 設計：

# 除了規則，還提供具體範例：

Example 1 (Positive review):
Input: "This laptop is amazing! Fast, great battery life..."
Output: {"sentiment": "positive", "product": "laptop", "issue": ""}

Example 2 (Negative with issue):
Input: "這台印表機常常卡紙..."
Output: {"sentiment": "negative", "product": "printer", "issue": "frequent paper jams"}

Example 3 (Sarcastic):
Input: "Great quality! Broke after one week..."
Output: {"sentiment": "negative", "product": "product", "issue": "broke after one week"}

實測結果：

✅ 格式正確率：100% — 維持完美格式
✅ 情感準確率：83.3% — 顯著提升！
🏆 綜合成功率：91.7% — 最佳表現！

關鍵優勢：

更準確的情感判斷（提升 8.3%）
正確處理微妙情感（如「整體正面但有小缺點」）
完美識別諷刺和隱藏負面情緒

適用場景：處理複雜真實評論、需要高準確率的商業應用

📊 視覺化對比：誰是贏家？

格式一致性對比
Baseline:     ████████████                           (33.3%)
Rules-based:  ████████████████████████████████████  (100%)
Few-shot:     ████████████████████████████████████  (100%)

情感判斷能力對比
Baseline:     ███████████████████████████           (75.0%)
Rules-based:  ███████████████████████████           (75.0%)
Few-shot:     █████████████████████████████         (83.3%)

綜合成功率對比
Baseline:     ████████████████                      (54.2%)
Rules-based:  ████████████████████████████████      (87.5%)
Few-shot:     ██████████████████████████████████    (91.7%) 🏆

💡 實戰建議：如何選擇最適合的策略？

決策框架

應用場景	推薦策略	原因
快速原型測試	Baseline	最簡單，快速驗證想法
需要穩定格式	Rules-based	100% 格式正確率
處理真實評論	Few-shot	最高準確率，處理邊界案例
多語言環境	Few-shot	透過範例展示多語言處理
諷刺/負面識別	Few-shot	範例幫助理解隱含意義

成本效益分析

投入成本 vs 準確率提升：

Baseline → Rules-based:
- 額外投入：撰寫明確規則（5-10 分鐘）
- 準確率提升：+33.3% (54.2% → 87.5%)
- 投資報酬率：極高 ⭐⭐⭐⭐⭐

Rules-based → Few-shot:
- 額外投入：準備 3-5 個範例（10-15 分鐘）
- 準確率提升：+4.2% (87.5% → 91.7%)
- 投資報酬率：高 ⭐⭐⭐⭐

🚀 實作範例：立即應用 Few-shot 策略

def analyze_review_with_few_shot(review_text):
    """
    使用 Few-shot learning 分析產品評論
    """
    prompt = f"""
    You are a product review analyzer. Extract sentiment, product, and issue.
    
    Rules:
    - sentiment: "positive", "neutral", or "negative"
    - product: product type in lowercase
    - issue: problem description or empty string
    - Return ONLY valid JSON
    
    Examples:
    
    Input: "這個藍牙喇叭音質超棒，cp值很高！"
    Output: {{"sentiment": "positive", "product": "speaker", "issue": ""}}
    
    Input: "充電線才用三個月就斷了，品質真差"
    Output: {{"sentiment": "negative", "product": "charging cable", "issue": "broke after 3 months"}}
    
    Input: "Router works as expected, 4 ports, standard speed"
    Output: {{"sentiment": "neutral", "product": "router", "issue": ""}}
    
    Now analyze:
    Input: "{review_text}"
    Output:
    """
    
    # Call your LLM API here
    response = call_llm_api(prompt)
    return json.loads(response)

🎯 關鍵洞察：為什麼 Few-shot 勝出？

模式識別優於規則
- 規則告訴 AI「什麼是對的」
- 範例展示「如何做對」
隱含知識的傳遞
- 範例中的諷刺案例教會 AI 識別言外之意
- 多語言範例自然處理中英文混合
邊界案例的處理
- 透過範例覆蓋特殊情況
- AI 學會類推到相似但不完全相同的案例

📈 量化效益：投資報酬率分析

假設每天處理 10,000 筆評論：

策略	準確率	錯誤數量/天	人工校正成本	月成本節省
Baseline	54.2%	4,580	NT$45,800	—
Rules-based	87.5%	1,250	NT$12,500	NT$999,000
Few-shot	91.7%	830	NT$8,300	NT$1,125,000

*假設每筆錯誤人工校正成本 NT$10，月工作日 30 天

🔮 未來展望：Context Engineering 的下一步

動態範例選擇：根據輸入特徵自動選擇最相關的範例
多輪優化：透過錯誤案例持續改進 Prompt
領域特化：為不同產品類別客製化策略
Chain-of-Thought：加入思考鏈提升複雜推理能力

📝 結論：小改變，大影響

這次實驗證明了一個重要觀點：在 AI 時代，Prompt Engineering 不是選配，而是必備技能。

透過簡單的策略升級：

從 Baseline 到 Rules-based：準確率提升 33.3%
從 Baseline 到 Few-shot：準確率提升 37.5%

只需要額外 15-20 分鐘的 Prompt 優化，就能將系統準確率從及格邊緣（54.2%）提升到接近完美（91.7%）。這不僅是數字上的改進，更是使用者體驗和商業價值的巨大提升。

記住：最好的 AI 應用，往往源自最精心設計的 Prompt。

🔧 附錄：完整測試程式碼

想要複製這個實驗？完整的測試程式碼已開源：

# 關鍵測試案例範例
TESTS = [
    {
        "text": "這個藍牙喇叭音質超棒，cp值很高！",
        "expected_sentiment": "positive",
        "expected_product": "speaker",
        "category": "短評-正面"
    },
    # ... 更多測試案例
]

# 執行實驗
results = run_context_engineering_experiment()

查看完整程式碼 →

Context Engineering 實戰：如何讓 AI 準確解析產品評論？三種 Prompt 策略的深度對比

📌 前言：為什麼 Context Engineering 如此重要？

🧪 實驗設計：12 個挑戰性測試案例

測試案例分類

評估指標

🎯 三種策略詳解與實測結果

策略 A：Baseline（最小指令集）

策略 B：Rules-based（明確規則）

策略 C：Few-shot Learning（提供範例）

📊 視覺化對比：誰是贏家？

💡 實戰建議：如何選擇最適合的策略？

決策框架

成本效益分析

🚀 實作範例：立即應用 Few-shot 策略

🎯 關鍵洞察：為什麼 Few-shot 勝出？

📈 量化效益：投資報酬率分析

🔮 未來展望：Context Engineering 的下一步

📝 結論：小改變，大影響

🔧 附錄：完整測試程式碼

Thanks for reading!