QuantFactory/Llama-3.2-Taiwan-3B-GGUF
Text Generation • 4B • Updated • 262 • 4
本資料集收錄臺灣金融、財經、產業類新聞與專題文章之繁體中文文本,總 token 數約 159M(159 百萬),可作為繁中模型在「臺灣財經語境」下的補充預訓練語料。
資料來自繁體中文公開財經、產業類報導,內容涵蓋:
每筆樣本以 text 為主文,搭配 token_count、word_count、url、updated_at 等 metadata,方便後續清理、去重與時間追蹤。
{
"text": "(財經類繁中報導樣本)...",
"token_count": 355,
"word_count": 397,
"url": "https://example.com/...",
"updated_at": "2024-11-04"
}
通用繁中語料中,財經類文本比例不一,且許多專業術語與政策制度高度在地化(例如:社宅、健保補充保費、ETF 配息)。本資料集針對該領域做集中蒐集,補強模型在臺灣財經語境上的覆蓋。
updated_at 時間戳。原始報導由各原作者撰寫並公開於網路。
無人工標註。
無標註者。
資料來自公開新聞報導,所提及之人名與機構名稱屬已公開資訊。
建議與其他繁中通用語料一同混訓並控制比重;下游若用於財經 chatbot,請結合 RAG 取最新主管機關公告再行回答。
@misc{tw_finance_159m,
title = {tw-finance-159M: Traditional Chinese Finance and Industry News Corpus from Taiwan (159M tokens)},
author = {Huang, Liang Hsun},
year = {2024},
howpublished = {\url{https://huggingface.co/datasets/lianghsun/tw-finance-159M}}
}