diff --git a/_OVERVIEW.md b/_OVERVIEW.md index b51653c..f8f29e4 100644 --- a/_OVERVIEW.md +++ b/_OVERVIEW.md @@ -197,7 +197,7 @@ 标签数量分布统计和可视化结果如下图: -![诗词标签-数据可视化.png](./pics/诗词标签-数据可视化.png) +![诗词标签-数据可视化.png](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/诗词标签-数据可视化.png) 对无用标签进行清洗。去掉其中例如“唐诗三百首”、“高中必备古诗”这些无用的tag,只保留“送别”、“思乡”这类tag。 @@ -287,7 +287,7 @@ 选择在HuggingFace上发布的`IDEA-CCNL/Wenzhong-GPT2-110M`模型,包含110M参数,使用BPE分词,在300G的悟道语料上进行预训练。该模型在封神榜系列模型中属于自然语言生成任务的通用模型。 -![模型分类](./pics/fenshenbang-模型分类.png) +![模型分类](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/fenshenbang-模型分类.png) 为了提升训练效率,使用peft库进行高效的微调,具体使用LoRA方法,最终仅训练1.02%的参数。 @@ -443,7 +443,7 @@ 困惑度与测试集上的句子概率相关,其基本思想是:给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的模型就是在测试集上的概率越高越好,公式如下: -![PPL](./pics/PPL公式.png) +![PPL](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/PPL公式.png) 其中S表示句子,w表示词语。 @@ -510,7 +510,7 @@ 为了使微调更有效, LoRA通过低秩分解,用两个较小的权重更新来表示权重更新矩阵。这些新矩阵可以被训练以适应新数据,同时保持较低的更改总数。原始权重矩阵保持冻结状态,不会接收任何进一步的调整。 -![lora](./pics/lora.png) +![lora](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/lora.png) ```python MODEL_PATH = r"IDEA-CCNL/Wenzhong-GPT2-110M" @@ -564,11 +564,11 @@ 训练过程截图如下: -![训练过程](./pics/训练过程.jpg) +![训练过程](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/训练过程.jpg) 训练过程中的loss: -![loss](./pics/loss.png) +![loss](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/loss.png) ## 第二阶段模型构建与训练 @@ -720,9 +720,9 @@ 将输入提示和模型返回结果的过程设计成gradio的交互界面,已经部署在gradio上,链接为[huggingface.co/spaces/Wendyy/poem-generate](https://huggingface.co/spaces/Wendyy/poem-generate): -![提示古诗生成](./pics/提示古诗生成.png) - -![藏头诗生成](./pics/藏头诗生成.png) +![提示古诗生成](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/提示古诗生成.png) + +![藏头诗生成](https://mo.zju.edu.cn/repo/OZ2fxZukDanIbwK8WP7Ht_iyYx-iFiohusxaM3QPIs2m/raw/master/pics/藏头诗生成.png) ```python css = """