SlideShare a Scribd company logo
Kaggle_ 貸款風險
預測模型開發
成員:謝 O 戎、吳 O 頡、劉 O 言、林 O 譯、陳 O 彣、熊 O 凱
大綱
動機
目標
預測模型開發
AI 系統應用開發
動機
傳統的信用評估方法通常依賴於有限的資料,且缺乏對客戶行為的深入理解。
隨著金融科技迅速發展以及數據量的增加,利用先進的機器學習技術來預測
信貸風險變得越來越重要。
1 機器學習
從龐大資料學習複雜的
模式,更精確地評估信
用風險。
2 巨量資料
豐富客戶資料,包括信
用歷史、交易紀錄和個
人等資訊
3 穩定的模型
確保模型在歷經時間週期、資料變動時仍能保持適當準
確性。
目標
1. 參與 Kaggle 競賽,建立一個正確、穩定可靠的
信用風險模型,可以預測判別客戶是否會違約貸款
2. AI 應用開發系統
預測模型開發
模型建立流程
1
資料讀取
載入資料
2 資料預處理及探索 (EDA)
深入理解資料特性,包括變數類型、資料分佈、缺失值
處理等
3
特徵工程
將原始資料轉換為模型可理解的格式,包括特徵提取、
特徵選擇和特徵轉換 4 模型訓練
使用訓練資料訓練模型,並使用驗證資料評估模型效能
5
模型優化
透過 Optuna 優化器,尋找最佳化超參數的設定,進一
步選擇最適模型 6 模型評估及選擇
使用測試資料評估模型效能,並與其他模型進行比較、
選擇最適模型
挑戰
資料挑戰
面對豐富、複雜資料結構,但品質参差不齊,需要
進行大量資料處理和特徵工程,將不同類型的數據
統一並轉化為可供模型使用的形式。
Kaggle 競賽 Top 10%
力爭在 3800 名參賽隊伍的排行榜上取得前 10% 的
排名。
資料挑戰
1.52 M
case_id
26.77 G
memory
138
files
2588
columns
EDA ( 違約人數及比率 )
EDA ( 性別 vs 貸款收入比 )
1. 依性別分,女性貸款比例較高 62.41% ,違約率較低 3%
2. 依平均貸款金額對比性別,女性貸款金額比男性高 USD 3800
3. 依貸款收入比對比貸款種類及性別,女性的貸款需求比例較高
EDA ( 年齡 vs 貸款收入比 )
1. 依年齡分, 30~50, 65+ 歲族群貸款需求較高; 35 歲以下違約率較高
2. 依平均貸款金額對比年齡族群, 40 歲以上族群貸款金額需求較高
3. 依貸款收入比對比貸款種類及年齡, 40 歲以上族群貸款收入比較高
EDA ( 家庭狀況 vs 貸款收入比 )
1. 依申請者家庭狀況分,已婚族群貸款需求較高,佔申請者 50.6% ;同居者申請比率低,但違約率較高
2. 依平均貸款金額對比申請者家庭狀況,同居者族群貸款金額需求較低,其餘族群偏高
3. 依貸款收入比對比貸款種類及申請者家庭狀況,離婚者的貸款收入比比例較高
EDA ( 聯絡人 vs 貸款收入比 )
1. 依申請者所填聯絡人分,若擔保人為朋友或同事者,違約率相對較高
2. 依平均貸款金額對比設定聯絡人,若擔保人為小孩或同事者,貸款金額較高
3. 依貸款收入比對比貸款種類及聯絡人,擔保人為小孩、配偶的貸款收入比較高
EDA ( 收入類型 vs 貸款收入比 )
1. 依申請者收入類型分,若為 private_sector 者,案件較多,且違約率相對較高
2. 依平均貸款金額對比收入類型,除了 HANDICAPPED 之外,貸款金額較高
3. 依貸款收入比對比收入類型,整體大致類似
EDA ( 收入穩定性 vs 貸款收入比 )
1. 依申請者收入穩定性分,若為長期有收入者,相對違約率較低
2. 依平均貸款金額對比收入穩定性,穩定收入者,貸款需求較高,但相對違約貸款金額也較高
3. 依貸款收入比對比收入穩定性,除無收入之外,其餘大致類似
EDA ( 職業別 vs 貸款收入比 )
1. 依申請者職業別,普遍都有違約情況
EDA ( 工作年資 vs 貸款收入比 )
1. 依申請者年資,少於一年者的違約率較高,但貸款需求較少
EDA ( 時間序 vs 貸款收入比 )
Exploratory data analyisis
1. 從時間序來看,因經濟及疫情影響, wk65~wk69 申貸核准人數變少,且相對違約率較低
2. 整體來看,周五 ~ 周日的申貸核准人數較多,但違約率相對較低
資料清理
確保每一列(特徵)都有正確的數據類型,並根據不同的條件將其轉換為以下幾種數據類型:
整數(例如: case_id, WEEK_NUM )
浮點數(針對特徵欄位名稱以 "P" 或 "A" 結尾的列)
字串(針對特徵欄位名稱以 "M" 結尾的列)
日期(針對特徵欄位名稱以 "D" 結尾的列)
特徵工程
處理結果: (1526659, 1062) → (1526659, 877) → (1526659, 610)
處理日期
計算每個日期與決策日期的差距
過濾不必要的列
1. 刪除缺失值超過 98%
2. 字串類型且不同值超過 10000 個的列
3. 字串類型出現頻率低於 70% 的列
特徵聚合
1. 數字特徵:
計算每個數字欄位的最大值、最後一個值、平均值、和等特徵,讓模型更了解數據
趨勢。
2. 日期特徵:
日期類型欄位會計算最大值、最後日期、平均日期等,幫助模型學習事件發生的時
間規律。
3. 文字特徵:
對於文字型的欄位,取出一些最大值、最後一個值等特徵,整理出常見的模式。
根據相關性分組
計算每一對特徵之間的相關性是否大於 0.8
模型選擇
model architecture
模型選擇
模型 特點 優勢 缺點 效能
XGBoost 基於梯度提升 適合多數情況 , 良好的通用性使
其在競賽中被廣泛使用
1. 類別型特徵占比太高時表現稍遜色
2. 訓練速度較慢,對於大數據集內存消
耗較高
通常略好於 LightGBM 及 CatBoost
LightGBM 基於梯度提升 1. 擅長處理大規模與高維度資料
集 , 亦對數值型特徵表現出色
2. 在提升效率和縮短訓練時間上
表現非常優異
1. 類別型特徵占比太高或缺失值過多時
表現較遜色
2. 超參數設置不當容易導致過擬合
3. 對於小數據集可能不如其他模型準確。
1. 與 XGBoost 相近
2. 在大規模資料上表現突出 , 有時甚至能
超越 XGBoost
CatBoost 專為類別特徵設計的梯度
提升決策樹,內部處理類
別特徵
1. 針對類別型特徵進行了優化
2. 在處理大量類別型特徵的資料
集上表現最為穩定
1. 訓練時間較長
2. 對於高維特徵可能表現不佳
3. 複雜的缺失值處理與類別特徵編碼演
算法 , 耗費較大的運算資源
4. 對數值型特徵不具備優勢
在大量類別型特徵的資料集上往往優於
XGBoost 和 LightGBM
模型評估
最終選擇模型 LightGBM
模型正確性評估補充 (by LightGBM)
Optimal threshold, 0.041
( 當預測機率小於門檻值時,可分類為非違約情況 (0) ,反之則歸類為 1)
評分標準
指標 描述
AUC 衡量模型正確性區分
違約客戶和非違約客
戶的能力。
Stability metric 衡量模型穩定性區分
違約客戶和非違約客
戶的能力。
模型穩定性評估說明
模型穩定性評估
Stability metric : 0.7
( 模型穩定表現,符合要求 )
模型評估
最終選擇模型 LightGBM
結果
AI 應用開發
前後端架構圖
AI 應用開發系統
AI 應用開發系統
End
謝謝聆聽

More Related Content

PPTX
AI 認得你,也認得照片的重複 - 智慧型圖片管理系統:結合人臉辨識與重複圖片偵測技術【艾鍗學院學員專題 】
IttrainingIttraining
 
PPTX
AI 個人造型顧問:結合 Stable Diffusion 與 CLIP 的 AI 虛擬穿搭推薦系統設計【艾鍗學院學員專題 】
IttrainingIttraining
 
PPTX
「熊出沒注意!」:結合 YOLOv8 的台灣黑熊即時預警系統設計【艾鍗學院學員專題 】
IttrainingIttraining
 
PPTX
BentoCal:食物熱量健康管理系統 - 結合 YOLOv8 的便當影像辨識與熱量推估系統【艾鍗學院學員專題 】
IttrainingIttraining
 
PPTX
AI 飆股預測:你的智慧投資夥伴-基於技術分析與基本面的 AI 股價預測系統【艾鍗學院學員專題 】
IttrainingIttraining
 
PPTX
Character Generation Master 角色生成大師【艾鍗學院】
IttrainingIttraining
 
PPTX
吉伊卡哇臉盲辨識器 - 艾鍗學院學員專題 [AI人工智慧與邊緣運算工程師班]
IttrainingIttraining
 
PPTX
AI 語音複製 X 翻譯 - 艾鍗學院學員專題 [AI人工智慧與邊緣運算工程師班]
IttrainingIttraining
 
AI 認得你,也認得照片的重複 - 智慧型圖片管理系統:結合人臉辨識與重複圖片偵測技術【艾鍗學院學員專題 】
IttrainingIttraining
 
AI 個人造型顧問:結合 Stable Diffusion 與 CLIP 的 AI 虛擬穿搭推薦系統設計【艾鍗學院學員專題 】
IttrainingIttraining
 
「熊出沒注意!」:結合 YOLOv8 的台灣黑熊即時預警系統設計【艾鍗學院學員專題 】
IttrainingIttraining
 
BentoCal:食物熱量健康管理系統 - 結合 YOLOv8 的便當影像辨識與熱量推估系統【艾鍗學院學員專題 】
IttrainingIttraining
 
AI 飆股預測:你的智慧投資夥伴-基於技術分析與基本面的 AI 股價預測系統【艾鍗學院學員專題 】
IttrainingIttraining
 
Character Generation Master 角色生成大師【艾鍗學院】
IttrainingIttraining
 
吉伊卡哇臉盲辨識器 - 艾鍗學院學員專題 [AI人工智慧與邊緣運算工程師班]
IttrainingIttraining
 
AI 語音複製 X 翻譯 - 艾鍗學院學員專題 [AI人工智慧與邊緣運算工程師班]
IttrainingIttraining
 

More from IttrainingIttraining (20)

PPTX
以人工智能打造企業內部知識管理系統以PCB板為例 - 艾鍗學院學員專題 [AI人工智慧與邊緣運算工程師班]
IttrainingIttraining
 
PPTX
Scratch遊戲設計 教學培訓課程Scratch Game【台灣程式教育協進會】
IttrainingIttraining
 
PPTX
Scratch AI應用與遊戲開發 教學培訓課程【台灣程式教育協進會】
IttrainingIttraining
 
PPTX
APCS程式設計 - C++程式語言觀念 (大學程式設計先修檢測)
IttrainingIttraining
 
PPTX
艾鍗學院課程節錄 - 自然語言處理與大型語言模型(NLP,LLM,Transformer)
IttrainingIttraining
 
PPTX
艾鍗學院學員AI專題 - 飛向Kaggle宇宙🚀🚀-系外行星之光譜與物質濃度分析
IttrainingIttraining
 
PDF
艾鍗學院學員AI專題 - 類流感預測
IttrainingIttraining
 
PPTX
艾鍗學院學員AI專題 - AI 熱量管理師
IttrainingIttraining
 
PPTX
艾鍗學院學員AI專題 - 串流平台Netflix 熱門電影與節目特徵分析及排行上榜預測平台
IttrainingIttraining
 
PPT
C++程式設計Basic
IttrainingIttraining
 
PPTX
第五組_速速單字書 Quickly Collect Words
IttrainingIttraining
 
PDF
第四組_產品評論情緒分析系統
IttrainingIttraining
 
PPTX
第三組_籃球賽影像分析-艾鍗學院
IttrainingIttraining
 
PPTX
第二組_Fast CheckOut秒結專案-艾鍗學院
IttrainingIttraining
 
PDF
第一組_零售店未來銷售預測-艾鍗學院
IttrainingIttraining
 
PPT
【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院
IttrainingIttraining
 
PPTX
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班
IttrainingIttraining
 
PPTX
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班
IttrainingIttraining
 
PPTX
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班
IttrainingIttraining
 
PPTX
04_動物姿態識別Pet pose classification
IttrainingIttraining
 
以人工智能打造企業內部知識管理系統以PCB板為例 - 艾鍗學院學員專題 [AI人工智慧與邊緣運算工程師班]
IttrainingIttraining
 
Scratch遊戲設計 教學培訓課程Scratch Game【台灣程式教育協進會】
IttrainingIttraining
 
Scratch AI應用與遊戲開發 教學培訓課程【台灣程式教育協進會】
IttrainingIttraining
 
APCS程式設計 - C++程式語言觀念 (大學程式設計先修檢測)
IttrainingIttraining
 
艾鍗學院課程節錄 - 自然語言處理與大型語言模型(NLP,LLM,Transformer)
IttrainingIttraining
 
艾鍗學院學員AI專題 - 飛向Kaggle宇宙🚀🚀-系外行星之光譜與物質濃度分析
IttrainingIttraining
 
艾鍗學院學員AI專題 - 類流感預測
IttrainingIttraining
 
艾鍗學院學員AI專題 - AI 熱量管理師
IttrainingIttraining
 
艾鍗學院學員AI專題 - 串流平台Netflix 熱門電影與節目特徵分析及排行上榜預測平台
IttrainingIttraining
 
C++程式設計Basic
IttrainingIttraining
 
第五組_速速單字書 Quickly Collect Words
IttrainingIttraining
 
第四組_產品評論情緒分析系統
IttrainingIttraining
 
第三組_籃球賽影像分析-艾鍗學院
IttrainingIttraining
 
第二組_Fast CheckOut秒結專案-艾鍗學院
IttrainingIttraining
 
第一組_零售店未來銷售預測-艾鍗學院
IttrainingIttraining
 
【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院
IttrainingIttraining
 
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班
IttrainingIttraining
 
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班
IttrainingIttraining
 
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班
IttrainingIttraining
 
04_動物姿態識別Pet pose classification
IttrainingIttraining
 
Ad

艾鍗學院學員AI專題 - Kaggle貸款風險預測模型開發