大模型輔助軟件測試在商業銀行的應用研究

2025年04月30日

在快速變化的市場環境中，商業銀行的產品和服務正在進行場景化、敏捷化和數智化轉型，從而及時響應客戶需求和業務變化。因此，IT系統作為金融業務發展的基礎設施，其迭代速度和質量保證至關重要，而軟件測試是軟件質量的“最后一道防線”。人工智能大模型技術作為新質生產力的典型代表，近年來快速發展，已逐漸成為信息科技革新的關鍵驅動力，為商業銀行構建數智化測試質量保障體系提供新動能、新方案。

華夏銀行在大模型輔助研發的“5D”框架體系的基礎上，深耕軟件測試場景和工作流程，面向測試場景覆蓋度、測試案例設計標準化、測試數據生成所需人力成本、測試腳本編寫所需人力成本、業務規則的周密性等業務關鍵點，充分運用大模型技術的語義理解、知識檢索、邏輯推理和文本生成等關鍵特性，提出大模型賦能軟件測試的“5R”方法論和“SPACE”應用框架，為大模型在軟件測試體系的落地應用提供了指導，使大模型能力無縫嵌入到日常測試流程，為商業銀行數字化轉型和智能化發展的高效性及可持續性奠定了堅實基礎。

大模型輔助研發的“5D”框架體系

2022年11月，美國OpenAI公司推出了ChatGPT對話機器人，受到了社會各界的廣泛關注，標志著生成式人工智能時代的開啟，并由此推動從弱人工智能向強人工智能發展的階躍。這將為人類社會帶來深刻的變革，產生深遠的影響。近兩年來，各商業銀行紛紛在人工智能大模型領域持續發力，面向各類經營場景開展了大量大模型技術應用探索。

大模型技術能夠為軟件工程的各個環節賦能，包括需求分析、系統設計、系統開發、調試與測試、系統部署上線與運維等，通過提供全方位智能化支持，從而提升研發效率，助力數字金融全面降本提質增效。大模型輔助研發涉及的環節可以概括為“5D”框架體系（如圖1所示），即需求分析（Demand & Requirement Analysis）、系統設計（Design of System）、系統開發（Development of System）、調試與測試（Debugging & Testing）以及部署與運維（Deployment & Operations）。本文聚焦Debugging & Testing（調試與測試）環節展開探討。

大模型輔助軟件測試的能力與優勢

大模型技術依托其強大的表示和泛化能力，能夠處理復雜的數據和任務，在自然語言處理（NLP）、計算機視覺（CV）等領域具有深遠的應用潛力。在軟件測試領域，核心流程是通過對測試需求的多種輸入進行測試分析，自動生成標準化的需求測試點和測試案例，匹配測試案例對應的測試數據，并進行案例執行與問題跟蹤閉環。在此流程中，不但涉及了測試業務和理論知識，還涉及了信息提取、推理分析、風險評估和結果整合等能力。因此，大模型語義理解、邏輯推理和文本生成等關鍵技術能力能夠在軟件測試中發揮效用。

在軟件測試應用研究中，華夏銀行提出大模型輔助軟件測試的“5R”方法論，涵蓋五項大模型相關技術方法，即讀取（Read）、檢索增強生成（Retriev-al-Augmented Generation，RAG）、重排序（Reranker）、響應（Response）和報告生成（Report Generation），將大模型技術與軟件測試過程融合，推進軟件測試智能化發展。具體而言，大模型在Read階段利用強大的自然語言理解能力，面向提示詞工程，從測試需求文檔、接口文檔和業務規則中提取關鍵信息、依賴關系和目標任務；而后大模型運用RAG技術，先從知識庫或歷史數據中檢索與目標任務相關的上下文信息，如業務領域規范、常見異常路徑和歷史失敗案例等，再將檢索結果生成多組候選結果；針對RAG生成的多組候選結果，Reranker階段通過相關性、風險等級等因素綜合評估，更精細地對結果重排序，并通過Response階段對結果進行輸出；最后在Report Generation階段，通過大模型進行執行數據和測試風險分析，完成報告生成，形成測試流程處理的閉環，從而實現大模型技術在軟件測試中實用、高效的落地應用。

大模型輔助軟件測試的探索與實踐

1.大模型選型

在大模型輔助軟件測試“5R”方法論基礎上，將測試需求文檔、接口文檔及業務規則等測試輸入內容形成提示詞，并輸入大模型，而后對模型輸出內容與實際測試過程中需求測試點和測試案例的匹配度進行驗證。

本文選擇國內通用的四種基礎大模型進行對比驗證，驗證過程中對模型輸出的內容進行標注，進一步獲取對生成結果的采納率、完整性和直接可用率等指標，從而對大模型的軟件測試輔助能力進行綜合評估，最終選擇大模型B進行項目實施和集成，開展大模型能力在測試環節中的實踐。對比驗證情況見表。

2.大模型輔助軟件測試的應用框架

華夏銀行提出大模型輔助軟件測試的“SPACE”應用框架（如圖2所示），包含測試腳本（Scripts of Testing）、需求測試點（Points of Requirement Testing）、測試分析（Analysis of Testing）、測試案例（Cases of Testing）和測試工程化（Engineering of Testing），將大模型能力無縫地嵌入到日常測試流程中。SPACE以自動執行測試腳本為目標，以需求測試點為切入點，運用大模型結合知識庫進行測試分析，自動生成測試需求點、測試案例及其所需的測試數據，并以測試工程化為手段，與華夏銀行一體化測試作業平臺進行集成，實現應用落地。其中，測試需求點的生成采用“4B”框架，即基礎測試點（Basic Testing Points）、銀行專業測試點（Banking Testing Points）、業務經營測試點（Business Testing Points）和用戶行為測試點（Behavioral Testing Points），從多維度針對測試需求進行測試需求分析，實現了測試點輸出的完備性和科學性，提供了測試需求、測試案例分析與設計的質量保障；測試案例的生成采用“4F”框架，即業務操作流程（Flow of Banking Business）、數據特征（Feature of Data）、函數調用（Function Calling）和測試要素（Factor of Testing），體系化地將需求測試點細化為測試案例，形成既定的業務流和數據流，提升測試覆蓋的深度和廣度，推進實現從測試需求分析到測試執行的智能化和自動化。

3.大模型輔助軟件測試應用成效

基于“SPACE”應用框架，華夏銀行以接口文檔為輸入，運用大模型和業務規則知識庫，開展了接口測試的全流程測試實踐。在需求測試點生成過程中，將讀取的文檔和業務規則知識庫相結合形成提示詞，從技術和業務兩方面共同保障測試點輸出的準確性和全面性。通過不同維度需求測試點對應測試案例生成的提示詞，實現了測試案例生成的全面覆蓋。最終，將銀行測試數據平臺的業務數據和測試案例相結合形成提示詞，由大模型生成測試案例對應的執行數據（如圖3所示）。

提示詞工程是大模型輔助軟件測試應用的關鍵技術手段，核心設計思路是將復雜問題原子化，結合多級提示詞提取、多結果合并、角色設定和引導式提問策略，實現原子問題逐個突破，再將各項結果進行融合，從而提高問題解決的效率和準確性。在提示詞的設計中應用了零樣本、小樣本優化策略，使結果輸出更符合業務要求。對于比較復雜的任務，如字段間規則測試點提取，應用了思維鏈的優化策略，引導大模型一步一步思考得到更完善的測試數據結果。通過生成效果的持續驗證和提示詞的迭代優化，最終在多場景和多維度的評估驗證中，通過當前提示詞輸入大模型生成的結果可以有效協助測試工作。

目前，基于大模型的接口智能化測試功能已在華夏銀行一體化測試作業平臺集成投產，并在測試領域全面應用，測試人員可以在平臺上進行需求測試點、測試案例、測試數據的生成、采納和優化。通過對測試人員使用情況的數據采集、分析和可視化展示，為提示詞和整體解決方案的進一步優化提供方向和數據支撐。目前大模型生成結果的直接可用率為63%、綜合采納率為75%，實現了從測試輸入到測試執行的智能化和自動化，降低了對測試人員的經驗依賴和時間成本，提升了測試需求分析的準確性和完整性。

隨著商業銀行數字化進程的不斷深化，軟件研發模式持續創新和優化，大模型技術已經在軟件測試中展現了可觀的價值和潛力。本文面向大模型輔助軟件測試在商業銀行的應用研究，創新提出“5R”方法論和“SPACE”應用框架，為基于大模型開展軟件測試提供理論支撐。基于大模型和知識庫的軟件測試解決方案應用成效顯著，有效提升了測試效率、降低了測試成本、提高了軟件交付質量，為商業銀行構建智能化、自動化的軟件測試方案提供了有益借鑒。

文/華夏銀行首席信息官吳永飛

華夏銀行科技開發與運行中心副總經理陳剛王彥博

華夏銀行科技開發與運行中心吳錦陳志豪

華夏銀行張兵、高麗娟、李大偉，以及龍盈智達（北京）科技有限公司張月、尤佳冀、陳生、馮凱、楊璇對本文亦有貢獻

此文轉載至《金融電子化》2025年2月上半月刊

免費獲取Testin云測產品體驗

立即咨詢