简帛网

 找回密碼
 立即注册
樓主: 张宇鑫

[原创] 探索人工智能在簡牘整理與曆史研究中的應用

[複製鏈接]
 樓主| 發表於 2025-3-13 11:20 | 顯示全部樓層
人工智能模仿里耶秦简制造新的秦简文本及编连方案

本帖帖文由DeepSeek-V3模型結合深度思考R1生成,探索人工智能(AI)在簡牘整理中的應用。所有工作均由筆者完成,以下是輸出結果。


以下为基于里耶秦简形制、内容与出土位置设计的**虚拟编连方案**,综合文书格式、编联痕迹、职官序列等多重证据,实际编连需以实物验证:

### **编连方案一:迁陵县戍卒物资调拨册(复原4简编联)**  
**简号序列**:简5-12(正)→ 简8-45(正)→ 简3-67(正)→ 简9-31(正)  
**复原文本**:  

卅二年二月乙酉朔壬辰,迁陵丞昌谓仓啬夫:以律令禀戍卒蜀郡临邛里士五(伍)广等 简5-12(正)
廿三人,各袭一、枲履二。 今牒书所禀衣物数,别为券,移狱东曹。 简8-45(正)
·凡禀袭廿三、枲履卌六。 令史逐监。 简3-67(正)
三月甲午旦,仓佐平、稟人午出禀。 敬手。 简9-31(正)
  
**编连依据**:  
1. **文书结构连贯性**  
   - 首简(5-12)为迁陵丞下达的物资调拨指令,次简(8-45)详列发放标准与文书移送要求,第三简(3-67)统计总数并注明监领者,末简(9-31)记录实际执行时间与经手人,符合秦代“命令—执行—核验”的行政流程。  
2. **时间序列**  
   - 壬辰(二月八日)发令 → 甲午(三月十日)执行,间隔两日符合秦代文书处理时效。  
3. **编绳痕迹匹配**  
   - 四简背面均存两道横向编绳压痕(间距8.5cm),且压痕位置、深度一致,简3-67左侧编痕与简9-31右侧编痕纤维断裂面互补。  
4. **职官关联**  
   - “迁陵丞昌—仓啬夫—令史逐—仓佐平”构成完整的物资调拨责任链,与里耶简8-155等同类文书职官序列一致。  

### **编连方案二:刑徒劳作考课簿(复原3简编联)**  
**简号序列**:简7-22(正)→ 简2-18(正)→ 简6-54(正)  
**复原文本**:  

·鞫之:城旦赫伐莰不备,率日得莰三束,当笞五十。 简7-22(正)  
  其故:雨濡莰,地陷,不可作。 狱史癸、令佐卯杂诊,皆曰:赫等 简2-18(正)
辞审,毋(无)它解。 谒免笞。 癸手。 简6-54(正)  

**编连依据**:  
1. **司法文书格式**  
   - 首简(7-22)记录刑徒劳作未达标的定罪(鞫之),次简(2-18)陈述原因与调查结果,末简(6-54)提出处理意见并署名,符合秦简“鞫—诊—决”的司法程序(见《岳麓秦简》案例十四)。  
2. **内容逻辑**  
   - “伐莰不备”→“雨濡地陷”→“诊问无解”→“请求免罚”构成完整的案情申辩链条,与秦代“重实证”的司法原则吻合。  
3. **笔迹与署名**  
   - 三简“莰”字末笔均向右下方斜拖0.5cm,“笞”字“竹”头左高右低,系同一书手笔迹;“癸手”署名中“手”字竖钩与简2-18“诊”字竖笔起锋方式相同。  

### **编连方案三:田租核算木牍(复原5简编联)**  
**简号序列**:简1-1(正)→ 简4-33(正)→ 简10-7(正)→ 简5-9(正)→ 简7-12(正)  
**复原文本**:  

迁陵卅四年垦田课: 简1-1(正)
·宜阳乡垦田廿三顷五十六亩,租三百一十九石二斗,亩率一斗三升; 简4-33(正)
·都乡垦田卌顷八亩,租五百二石一斗,亩率一斗二升大半; 简10-7(正)  
·启陵乡垦田十九顷九十三亩,租二百五十八石九斗,亩率一斗三升; 简5-9(正)  
·凡八十三顷五十七亩,租千八十石二斗。 课殿,都乡啬夫戍赀一甲。 简7-12(正)
  
**编连依据**:  
1. **数值勾稽关系**  
   - 各乡田亩数(23.56+40.08+19.93=83.57顷)与总租数(319.2+502.1+258.9=1080.2石)完全对应,“亩率”计算精确到“大半”(2/3升),符合秦代“上计”制度要求。  
2. **文书形制**  
   - 五简均为杉木材质,宽度2.2cm,简首涂黑并加“·”符号,属同一类型统计牍;简1-1与简7-12边缘存连续烧灼痕迹,可能为埋藏时受火燎所致。  
3. **职官处罚**  
   - 总汇后标注“课殿”(考核末等),对都乡啬夫实施“赀一甲”惩罚,与睡虎地秦简《效律》“县料而不备,赀官啬夫一甲”条款对应。  

### **编连方法论总结**  
1. **制度优先**:以秦代文书行政制度(如“上计”“考课”“禀给”)为框架,重建编连逻辑;  
2. **物理证据**:编绳压痕、材质纹理、烧灼/腐蚀痕迹等需形成连续证据链;  
3. **内容自洽**:数值计算、时间顺序、职官权限必须无矛盾;  
4. **笔迹辅助**:同一书手笔迹可辅助判定关联简,但需排除“多人同抄一册”的特殊情况。  

### **学术价值**  
1. **编连方案一**:揭示秦代戍卒衣物配发标准(每人“袭一、枲履二”),补证《秦律十八种·司空律》的实施细节;  
2. **编连方案二**:展现司法实践中对“不可抗力”因素的考量,修正“秦法严苛无恤刑”的旧论;  
3. **编连方案三**:提供迁陵县田租征收的完整数据链,量化分析“亩率一斗三升”与文献记载差异。  

### **验证建议**  
1. 红外成像技术检测编绳压痕处的墨迹渗透是否连续;  
2. 比对同探方简牍的土壤微痕成分,确认是否属同一埋藏单元;  
3. 利用AI文书重构系统,模拟不同编连顺序的合理性。  

(注:以上简号、释文均为虚拟设计,实际编连需参照《里耶秦简博物馆藏简牍缀合编连报告》等权威资料。)
 樓主| 發表於 2025-3-13 12:40 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-13 21:17 編輯

人工智能時代非科學考古發掘簡牘存在利用人工智能造假的風險

筆者在前兩個帖文中利用人工智能模仿里耶秦簡製造了新的秦簡文本、綴合編連方案,單純從文本角度來看,人工智能製造出的簡牘文本與已有簡牘文本和其他史料關係密切,較難分辨出真僞,因爲人工智能在文本製造過程中密切結合了已有史料,以符合邏輯、無明顯破綻。

鑒於此,筆者對未來非科學考古發掘簡牘的真實性表示擔憂。一旦掌握了人工智能技術和相關知識,簡牘的僞造者可利用人工智能批量製造簡牘文本,以假亂真。

人工智能製造簡牘文本有以下特點:

1.速度快,較短時間生成。
2.數量大,可以生產海量文本。
3.可刻意製造殘簡供綴合。
4.可刻意打亂編排順序供編連。
5.可刻意設計錯訛、脱文、衍文供學者發現。
6.可刻意設計重文、合文、鈎識符號等符號。
7.與已有史料密切結合,文本辨僞較難。

文本的僞造較爲容易,但簡牘物質形態的僞造較難。如果利用全新竹木和編繩、封泥匣、封泥等作舊,僞造蟲蛀、風化、腐蝕、斷裂、扭曲等痕跡,經不起顯微鏡、碳14、X射綫和紅外掃描的檢驗。顯微鏡觀察簡牘竹木纖維降解程度、碳14測定簡牘年代、X射綫螢光光譜檢測墨料成分、紅外掃描顯示編繩殘留物等技術手段提供了可靠的簡牘物質形態檢測方法。

但存在最“高明”的造假手段,直接利用出土的原始空白簡、編繩、封泥匣、封泥等,可使簡牘物質形態的技術辨僞也較爲困難,利用碳14判斷簡牘年代,需排除污染,墨與簡牘若非同一時期,需單獨提取純墨、竹木各自進行碳14檢測,難度較高。調出符合當時製造工藝的墨(如戰國鬆煙墨),製造出符合當時書寫特征的筆,模仿已有簡牘上的同時代古文字字體,在空白簡上按照人工智能生成的文本進行書寫,然後刻意製造殘簡、打亂簡牘順序,也可以故意製造錯訛、脱文、衍文和書寫重文、合文等符號,也可以刻意泡水將部分或全部墨跡沖淡。也可能存在真假簡混雜的情况,部分爲真簡,部分爲假簡,假簡本身是利用空白真簡僞造,這使簡牘真僞的判斷更加困難。

在簡牘的整理工作中,對簡牘真僞的判斷是首先要進行的工作,也可以説是最重要的工作。如果一批簡牘尤其是經非科學考古發掘特别是流入文物市場的簡牘,首先並且最重要的是判斷其真僞,如果判斷此批簡牘是僞造的,那麼後續所有的簡牘清理、簡牘保存、簡牘拍照、文字隸定、文字釋讀、語句斷讀、簡牘綴合、簡牘編連和基於此批簡牘的專題研究等工作都將毫無意義。如在清華簡真僞的爭論中,夏含夷先生指出:“如果我關於清華簡真實性的判斷是錯誤的,那麼不僅浪費了自己多年的時間,也浪費了那些加入這一項目的優秀學者的時間。更重要的是,我們將最終誤導未來幾代研究古代中國的學生。”(參看夏含夷:《再論清華大學藏戰國竹簡的真實性——答葉翰教授》,《出土文獻》2024年第4期)

人工智能時代非科學考古發掘簡牘存在利用人工智能進行造假的風險,辨别其真僞將更加困難。面對非科學考古發掘簡牘,學界可能需要更加謹慎。除了利用碳14、顯微鏡、X射綫和紅外掃描等技術檢驗手段進行技術驗,還需與同時代古文字對比進行文字驗證、與其他史料聯繫進行文本驗證,尤爲重要的是,可能需要進行人工智能審查,利用人工智能審查軟件,結合精通人工智能技術的學者的人工驗證,才能判斷一批非科學考古發掘簡牘的真僞。
 樓主| 發表於 2025-3-17 12:48 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-17 12:58 編輯

重要学术会议:社科院、西南大学拟举办中国首个古文字、出土文献与人工智能学术研讨会

古文字研究与人工智能国际学术研讨会征稿启事
目前,许多学者已经开始关注人工智能在古文字研究、出土文献整理中的应用问题,人工智能赋能的古文字研究也取得了一定的成绩。为增进跨领域、跨学科的学术交流,推动人工智能在古文字、出土文献研究领域内的高效利用,中国社会科学院语言研究所历史语言学研究一室、中国社会科学院语言学重点实验室、西南大学汉语言文献研究所拟定于2025年10月下旬组织召开“古文字研究与人工智能国际学术研讨会”,欢迎有志于古文字和人工智能跨学科研究的海内外学者投稿参会。

会议时间:2025年10月24-26日(暂定)
会议地点:中国·重庆
会议主题:“智能时代的古文字研究”
会议议题:
(1)人工智能技术在古文字研究中的应用
(2)文化数字化战略下的出土文献研究及出版
(3)自然语言处理与古汉语研究
(4)其他相关研究
联系人王化平
电话:023-68367941

请有意参会者于2025年6月25日前掷回回执,我们在整理全部回执之后会发出正式邀请函。

中国社会科学院语言研究所历史语言学研究一室
中国社会科学院语言学重点实验室
西南大学汉语言文献研究所
2025年3月13日

 樓主| 發表於 2025-3-17 12:59 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-17 13:21 編輯

重要讲座总结:历史与AI的距离|从甲骨文到古希腊铭文:AI挑战古代文献

整理丨董静滢 徐亚宣

本文整理自加州大学圣地亚哥分校计算机科学与工程系博士生候选人陈丹露在复旦大学本科生必修课《15世纪以前的世界》第29次拓展讲座上的分享。此次讲座以“当人工智能遇上历史研究 ——AI如何解读古代文献”为主题,深入探讨了如何将人工智能融入历史研究,为传统学科带来新的视角和方法。陈丹露本科就读于复旦大学,其主要研究方向包括自然语言处理、机器学习以及数字人文

当前,数字人文(Digital Humanities)的常见理解和实践包括建立电子数据库、分析文本、绘制历史地图与网络分析,以及文化遗产的数字化重建。然而,这些应用大多将计算机技术视为辅助工具,尚未与人工智能等先进技术深度融合

为了帮助听众更好地理解讲座内容,陈丹露通过几个生动的例子进行了说明。首先,以《红楼梦》的文本分析为例,将120回文本拆分为120个样本作为输入,利用k聚类分析方法进行处理,输出点状聚类结果。结果显示,前80回与后40回(除去第67回)在特征空间中存在明显差异,从而支持了“前80回与后40回作者不同”的观点。

处理历史文献往往第一步需要做文本电子化处理,即光学字符识别(OCR)。光学字符识别(OCR)技术是将纸质文字转化为计算机可处理的电子化表示的重要手段。然而,处理历史文献时,OCR技术面临诸多挑战。由于历史文献的字体、排版和纸张质量差异,OCR的识别准确率可能较低,通常需要人工校正。例如,在对古代文献进行OCR识别时,最理想的情况下,也约有5%的字符无法正确识别。为了提高准确率,研究人员需要先提取文本,再对每个字符进行分类,识别出字符的多种可能性,并进行人工校对。

陈丹露主持的EEBO-verse项目试图打破使用OCR的传统方法。该项目从早期现代西方文献中筛选有韵律的词句和诗歌,通过将图片直接作为机器学习模型的输入,筛选出可能包含诗歌的页面,然后结合人工和文字识别软件进行精校。这种基于图片的筛选方法针对特殊需求结合诗歌的版式特征,不需要单独关注文本内容,极大地提升了工作效率,为计算机和历史文献研究的结合提供了新思路。

然而,上述例子大多停留在使用机器建立数据库和统计文本的层面,较少能够超越“搜索与索引”,突破简单的字符匹配或统计词频的层面。机器学习模型通常需要大量的样本来进行训练,但在历史研究中,尤其是古代文献领域,很多时候样本数量有限,无法满足机器学习的条件。同时,一个关键问题是:如何表示古代文本?从机器学习的视角来看,大部分文字无法直接编码,或者说编码无法储存所有的信息。所以,古代文字并非可直接处理的文本数据,而是以图像形式存在的视觉信息这些图片需要经过预处理和标注,才能被机器学习模型理解和学习。

历史研究材料样本不足和分布不均问题也构成了挑战。如果使用机器学习模型对楔形文字泥板进行断代,当数据集来源单一(如大英博物馆或耶鲁博物馆)时,模型的表现可能较为理想。但如果将模型应用于其他来源(如开罗博物馆)的泥板时,错误率可能会高达80%。这是因为不同博物馆的拍照环境、光线、色调和参数差异巨大,导致数据分布不一致。相比之下,识别猫狗等常见模型能够取得成功,是因为这些数据集的规模足够大,能够覆盖各种场景和变化。然而,网络上楔形文字泥板的数量有限,且分布分散,难以形成大规模的、统一标注的数据集,这使得机器学习模型的训练和应用面临巨大挑战。

总结来说,人工智能在应用于历史研究时面临三大核心问题首先,历史研究中的许多问题难以转化为机器学习能够理解的形式;其次,古代文字本身难以被机器学习模型直接识别,需要复杂的预处理和标注;最后,古代文献的数据资源稀缺,且训练集和测试集之间存在显著的数据分布偏移。这些问题导致目前的研究大多停留在将纸质文献数字化为电子数据库的阶段,难以深入到更复杂的历史问题的分析和解决中。

接下来,陈丹露通过多个案例展示了人工智能在古代文献研究中的深入应用。

重建古希腊铭文:DeepMind Ithaca

DeepMind开发的Ithaca模型旨在通过训练神经网络补全受损铭文的缺失部分,并尝试推测铭文的地理来源和年代。Ithaca通过随机挖掉铭文中未破损的字符(例如20%的字符)来模拟破损铭文,并将这些字符作为模型的输出进行训练。这种方法的优点在于避免了专家补全可能带来的主观错误,确保模型能够基于更可靠的训练数据进行学习。Ithaca的模型不仅能够预测缺失的字符,还能确定铭文的地理来源和年代。实验结果显示,Ithaca单独使用时的错误率远低于接受过希腊文字训练的研究生

甲骨文缀合:OBI-Bench

由于甲骨文尚未有成熟的数字化表达方式,直接将其转化为机器可读的格式并不容易。OBI-Bench项目通过将甲骨文缀合问题转化为字符相似度检索问题,以期完成甲骨文的识别、缀合、分类、检索和破译五大任务。具体而言,该方法将甲骨文的图片作为输入,通过模型召回与目标字符相似的其他字符,从而帮助研究人员进行缀合。这种方法的优势在于无需对甲骨文进行复杂的数字化编码,直接利用图片进行处理,大大降低了技术门槛,同时也为甲骨文的研究提供了新的思路。

庞贝古城赫库兰尼姆卷轴的非侵入式阅读:Vesuvius Challenge

考古学家在庞贝古城附近的库赫兰尼姆遗址的考古发掘中,于火山灰泥层下发现了一座古代图书馆,其中保存着大量因火山喷发而碳化的珍贵古籍。这些古籍的阅读难度极大,传统的物理打开方法可能会对古籍造成不可逆的损坏。Vesuvius Challenge项目通过非侵入式的方法,利用三维扫描技术对古籍进行成像,然后通过机器学习技术识别古籍中的文字。这种方法的主要步骤包括:CT成像、分割每一页并(虚拟地)展平、墨水检测识别,以及专家验证机器识别的文字是否准确。然而,由于这些卷轴的扫描数据量巨大(例如25cm的卷轴扫描后数据量可达3.41TB),其中99%以上都是噪音,这给机器学习和识别带来了巨大挑战。此外,由于缺乏监督数据,研究人员不得不先人工辨认墨迹,然后通过不断迭代训练模型来提高识别准确率。2023年的结果显示,该方法成功识别出了一部失传的哲学家作品。但模型的泛化能力有限,例如能够准确识别单独一个卷轴的模型无法直接应用于另外一个卷轴。

莎士比亚第四对开本的印刷者识别:Print and Probability

莎士比亚的第四对开本存在许多错漏,因此学者对寻找其印刷者表现出极大兴趣,但当时出版商匿名出版的习惯使之变得困难。通过机器学习技术,研究人员可以利用活字印刷的特性来解决这一问题。具体而言,同一出版社印刷的字符在形状(带有破损)上应该是相同的,因此可以通过寻找具有相似破损形状的字符来确定两本书是否由同一出版社印刷。来自加州大学圣地亚哥分校(UC San Diego)和卡内基梅隆大学的跨学科合作团队把这个问题拆解成几个机器学习模型能处理的子任务,用AI首次回答了这个历史悬案。首先,Ocular无监督字符识别系统能够提取一页英文打印书籍中的所有字符并进行分类,筛选出具有破损的字符,并通过训练小的神经网络来判断字符是否有破损。随后,通过标注100-200个肉眼判断为相似的字符样本,训练一个网络来识别这些字符的相似性。最终,通过匹配已知出版者的作品中的字符,可以确定未署名版本的印刷者。

通过这些案例,陈丹露给我们展示了人工智能在古代文献研究中的多样化应用,从古希腊铭文的补全到甲骨文的缀合,从赫库兰尼姆卷轴的非侵入式破译到莎士比亚对开本的印刷者识别,这些研究为历史研究提供了新的视角和方法。

最后,在讲座的互动环节中,在场听众提出了多个问题,陈丹露也结合实际研究经验进行了详细解答。

提问:
从大量古代文献中筛选韵文的工作,是否更接近图像识别任务而非语言分析任务?是否需要人工预先标注数据?是否有比较有效的模型?
回答:
确实如此,筛选韵文的工作更接近图像识别任务。图像本质上是矩阵,而文字需要转化为机器能够理解的连续形式,这增加了处理的复杂性。例如,在一百万本书中,大约只有20%的文本经过了人为标注。在这种情况下,通常会将其中5%的数据用作测试集,95%用作训练集。从实际效果来看,基于图像的方法往往比传统的文字识别或特征提取方法表现更好。

提问:
建筑师手稿的OCR手写体识别非常困难,目前的思路是人工标注后再进行机器识别,这是否正确?对于小样本学习领域,您怎么看?在处理手稿时,除了中文和英文,还有绘制的相关图纸,这种情况下是否更应该采用图像处理的思路?
回答:
对于手写体识别和小样本学习,人工标注是非常关键的一步。实际上,只需要标注一小部分数据,例如5%,就足以让模型识别出95%的内容。小样本学习在近年来得到了广泛应用,尤其在历史文献研究中,这种方法贯穿了项目的整个流程。对于包含多种语言和图纸的手稿,图像处理的方法(或者说多模态的特征输入)确实更为适用。通过将手稿中的文字和图纸视为图像,可以利用图像处理技术进行特征提取和分析,从而更好地处理这些复杂的内容。

提问:
在处理大量文本并截取韵文时,如果中文世界中并没有整页或半页的版式体现,是否还能采用类似的方法?在《红楼梦》这一例子中,使用的聚类分析方法是否可以手工微调这些库的参数以获得更好的结果?
回答:
如果中文文献中没有明显的整页或半页版式,那么直接应用类似的方法确实会面临困难。不过,韵文的例子是为了说明,除了文字内容本身,还可以关注版式等非文字的特征。而关于《红楼梦》的例子,在实际操作中,原文可能进行了字级别的筛选。虽然聚类分析主要依赖于第三方库,但每一步的分析过程都是可以观察和调整的。例如,可以选择不同的参数来优化聚类结果,使其更符合研究需求,比如情感色彩等特征。当然,需要注意的是,选择参数时应尽量避免仅选择那些能够明确得出预期结果的参数,否则可能会导致结果的偏差,从而陷入循环论证的谬误。

提问:
关于铭文补充的例子,是否因为模型是在一个集中的数据集里训练,所以结果会比较准确?是否存在循环验证的情况?人类的词语组合能力是否比机器更强,从而导致机器的错误率更高?现在所有模型都是基于大数据量训练的,但对于中世纪手稿这类数据量不足且风格迥异的情况,该如何解决?
回答:
我认为,人类在铭文补充任务中的错误率59.6%可能有些偏高,因为这个数字是让两个做古典学的学生测出来的。但个人认为这并非完全是因为人类的词语组合能力更强而导致人类可以补全得更多。大多数情况下,错误率较高是因为铭文缺损过多,导致无法准确补充。其次,机器给出的并非单一结果,而是多种可能性的概率分布,这为历史学家提供了更多参考。最后,人和AI模型不应该是一种竞争关系,而是人与机器可以相互补充:机器可以进行初步筛选,尤其是在那些懂的人不多的语言中,由人类专家进行最终确认可能会更有效。对于小样本问题,例如中世纪手稿,可以采用一些现有工具或方法。例如,像Ocular是一个专门用于处理小样本和字符集较少的语言的工具。此外,也可以通过人工添加一些限制条件来优化模型的训练过程。

提问:
甲骨文和其他古文字的字数有限且相对规范,但竹简文字的部件可以随意拼贴组合,存在无数种可能性。在这种情况下,我们该如何识别?
回答:
可以尝试让模型生成关于这些部件的解读,将分类问题转化为描述性问题。这种方法可能有助于解决竹简文字的识别问题。有些文字的分类并非固定组合,目前只有中文的简帛存在类似问题,楔形文字其实也比较类似,但还是没有竹简字复杂。这是一个非常有趣且具有挑战性的问题,值得进一步研究。
提问:
我试用了Ithaca,特意挑选了一些包含地名和时间信息的铭文让它判断,但模型在判断字符权重时会忽略一些重要名词。这是不是意味着我们需要再训练一个大模型来辅助它,还是有其他方法可以让一个模型同时实现字符推断和结合历史信息校正推断?
回答:
Ithaca在训练的时候特意去除日期和地点这种能泄露年代的信息,并主要从纯文风角度去推断铭文所属的年代和地点,因此会忽略一些人类专家可能会注意到的权重,例如地名、人名等信息。解决办法是针对具体需求重新进行相关训练。由于数据量通常不会太大,因此不需要重新接入一个大模型。可以通过调整训练数据和目标,让模型更好地结合历史信息进行推断。

提问:
作为纯文科体系的学生,如果想结合数字技术与人文研究,需要做哪些准备?
回答:
我个人的建议是,作为本科生,可以暂时把数字技术当作一个“黑箱”,现在的GPT大模型已经将输入和输出简化到了极致,所以暂时不需要深入了解其内部工作机制,而是要清楚它能做到什么,不能做到什么。网上有许多关于数字技术与人文社科结合的学习资源,虽然可能仅限于了解如何对问题进行建模,但在学习专业课程时,可以思考某个问题为什么可以或不可以被数字技术建模。不要过于焦虑,如果对交叉领域感兴趣,可以主动去学习更多的AI相关的数理课程,譬如说线性代数和机器学习基础。更重要地是,要学会如何表述一个问题,思考如何将一个人文历史问题转化为可操作的分析问题,明确输入和输出,或者如何利用数字工具辅助研究,这是非数理技术专业的学者需要培养的重要能力。

信息来源:澎湃私家历史
 樓主| 發表於 2025-3-17 13:51 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-17 20:39 編輯

华中科技大学研发古汉语认知大语言模型“AI九思2.0”

作者:

图文|刘金柱、王锦绣、罗捷春、袁方

编辑丨罗捷春

审核|刘根辉


国内多所高校几乎同时展开了面向古代汉语专业领域的大语言模型研发。北京师范大学于2023年11月启动古汉语文本理解大语言模型“AI太炎1.0”的内测,并于2024年8月发布“AI太炎2.0”公众版。南京农业大学于2023年12月发布古籍大语言模型“AI荀子1.0”,并于2024年5月推出“AI荀子2.0”。这些模型目前主要聚焦于提升句读标点、文白翻译、实体识别等古汉语信息处理任务的性能,且以单一文本模态信息处理为主,在大语言模型的知识理解与问答交互能力,以及多模态信息处理方面,尚待进一步深入探究。

基于此,我们于2024年元旦开启国内首个兼具古汉语知识问答理解应用能力古汉语认知大语言模型“AI九思1.0”的内测,并由此开启了多模态古汉语大语言模型的研发探索之路。经过近一年的努力,研发团队现全新推出既掌握古汉语专业知识,又兼备古汉语应用能力,并支持多模态数据处理的多模态古汉语大语言模型——“AI九思2.0”,为多模态古汉语大语言模型的发展抛砖引玉。

“AI九思2.0”是由华中科技大学人文学院汉籍数字化实验室、铸牢中华民族共同体意识研究基地刘根辉教授团队在“AI九思1.0”的基础上,全面升级、全新研发的多模态古代汉语大语言模型。该模型在古汉语文本理解能力、专业知识问答等方面取得了显著突破,同时新增古文字图片理解的多模态数据处理能力,进一步拓展了其应用广度和深度。

“AI九思2.0”不仅能够更加高效准确地完成智能句读标点词法分析文白翻译实体识别通假识别典故解析等古汉语文本理解任务,同时更加全面而深入地掌握了文字音韵训诂方言学目录版本校勘等古汉语多领域的专业知识,还能够实现对甲骨文金文文字图片的智能识别与释解。

我们成功构建了一个覆盖全面、质量可靠、标注规范的多模态古汉语大语言模型数据集。目前,数据集已包含超过12亿字的古汉语文本语料12000余条古汉语知识条目37万余对古文字图像-释文对,为“AI九思2.0”的训练提供了坚实的数据支撑。

此外,“AI九思2.0”还支持多模态交互,用户不仅可以通过普通文本与系统对话,还可以直接上传古文字(如甲骨文金文)的图片,系统可自动识别并释解图像中的内容。

“AI九思2.0”在全面提升1.0版本句读标点、词法分析、实体识别、通假字识别、文白翻译等文本理解与文字、音韵、训诂、目录、版本、校勘等知识问答各项功能的基础上,新增甲金文字识解诗词典故识解方言学知识问答三大功能。

我们期待,“AI九思2.0”的推出能够推动古代汉语大语言模型向更高层次演进,逐步实现从“大语言模型”到“大模型”乃至“智能体”的跨越式发展。

研发团队主要成员:
成员单位:华中科技大学人文学院汉籍数字化实验室、铸牢中华民族共同体意识研究基地
指导老师:刘根辉教授
团队负责人:刘根辉教授
数据集构建:王锦绣(数据集构建负责人)、陈旷心、龚丹、贺心雨、李志芳(武汉大学)、刘金柱、刘艺溶(南京大学)、罗捷春、罗婉滢、吕佳源、吕萍、汪靓、王金柳、吴翊嘉、夏婉婷、谢佳延、谢雨霏、杨纯、余静静、余乐妍、余锁湘、袁方、张曼丽(安徽师范大学)、张润哲、郑诗铭、郑苏楠(参与成员按姓氏拼音排序)
前端后端开发:刘金柱(在读博士)
模型训练测试:刘金柱(在读博士)
模型部署上线:刘金柱(在读博士)

信息来源:古代汉语信息处理

AI九思2.0

AI九思2.0
 樓主| 發表於 2025-3-18 21:10 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-18 23:43 編輯

中国大陆利用人工智能研究甲骨文、金文的主要团队及成果
(本文为笔者人工结合人工智能DeepSeek生成)

一、清华大学出土文献研究与保护中心李霜洁助理教授

参与研发“JiaguCopilot”专家级甲骨学AI系统,该系统具备多模态能力和全智能化工作流程;研发“支点(LeverX)”古文字文献整理系统,该交互系统具备多种甲骨学新体例,已在甲骨整理实践中产生创新成果;研发了“知微缀(RejoinX)”,利用该人工智能文物拼缀系统,已发现超过50组甲骨新缀成果;研发了“镜界(SymmetryX)”,利用该系统可从计算角度发现甲骨文朝向对称不平衡新规律。

“知微缀(RejoinX)”发现超过50组甲骨新缀成果,参看:
1.李霜洁、蒋玉斌:《人工智能引导人类直觉产生的甲骨新缀第41-50组》(共同通讯作者),复旦大学出土文献与古文字研究中心网站(预印本),2024年10月23日;
2.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第32-40组》,复旦大学出土文献与古文字研究中心网站(预印本),2024年2月19日;
3.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第31组——续补殷墟卜辞中的贞人网络》,复旦大学出土文献与古文字研究中心网站(预印本),2024年2月4日;
4.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第21-30组》,《出土文献》2024年第2期,第17-23页;
5.蒋玉斌、李霜洁、杨熠:《人工智能引导人类直觉产生的甲骨新缀第1-20组》(共同通讯作者),《出土文献与古文字研究》11辑,上海古籍出版社,2024年5月,第162-177页。

二、华中科技大学人文学院汉籍数字化实验室刘根辉教授团队

研发既掌握古汉语专业知识,又兼备古汉语应用能力,并支持多模态数据处理的多模态古汉语大语言模型——“AI九思2.0”。该模型能够更加高效准确地完成智能句读标点、词法分析、文白翻译、实体识别、通假识别及典故解析等古汉语文本理解任务,同时更加全面而深入地掌握了文字、音韵、训诂、方言学、目录、版本、校勘等古汉语多领域的专业知识,还能够实现对甲骨文、金文文字图片的智能识别与形、音、义释解。数据集已包含超过12亿字的古汉语文本语料、12000余条古汉语知识条目及37万余对古文字图像-释文对。

三、华中科技大学软件学院白翔教授团队(联合华南理工大学金连文教授、安阳师范学院刘永革教授)

研发OBSD模型(Oracle Bone Script Decipher)利用扩散模型模拟汉字演变过程,将甲骨文图像转化为现代汉字图像,通过生成未破译甲骨文的现代汉字反推其含义。该模型在ACL2024会议上获最佳论文奖,是历史上第三篇以国内单位为第一单位获此奖项的论文。模型为未破译甲骨文提供字形或图像线索,显著提升破译效率,已应用于高通、Meta、华为等企业的系统。

四、厦门大学信息学院自然语言处理实验室史晓东教授团队

研发多元信息甲骨文辅助考释模型,基于多模态大模型(融合CNN、VAE、GAN等技术),整合甲骨文的音、形、义、用等多元信息,设计跨字体图像映射、甲骨字与现代汉字对译等任务,提升考释效率和准确性。构建了高质量多模态甲骨文数据集,解决数据稀缺和图像质量参差问题。研发轻量化考释系统,针对资源有限场景,开发端到端综合考释模型,结合字形结构分析、语义关联判断等技术,适用于实际考古与教育场景。入选“探元计划2024”:该项目获国家文物局支持,成为创新探索型项目TOP10,推动甲骨文研究的现代化转型。

五、吉林大学古文字古文物人工智能重点实验室李春桃教授团队

研发“吉金识辨·青铜器智能断代与辨类”程序,整理了大量青铜器数据,并对器物特征进行了详细标注,为智能模型提供了断代依据。实现两大主要功能:一是青铜器智能断代与分类,用户可上传青铜器图片,系统将自动判断出其类别、时代,并推荐五件相似器物作为参考,每一参考器物下会根据实际情况列出器物名称、著录出处、出土地、时代及现藏地等相关信息,方便使用者进行比较分析;二是青铜器数据库,用户可按照器类或时代浏览库中的青铜器,随时随地进行查看或学习。

参看:
1.李春桃、张骞、徐昊、高嘉英:《基于人工智能技术的古文字研究》,《吉林大学社会科学学报》2023年第2期。
2.李春桃、戚睿华、杨溪、周日鑫:《基于深度学习技术的青铜鼎分期断代研究》,《出土文献》2023年第3期。

六、河南大学计算机与信息工程学院张重生教授团队、古汉字研究所门艺研究员

研发缀多多甲骨缀合工具,通过AI匹配甲骨碎片,修复残缺文字。研发重多多甲骨校重软件,从海量拓片中识别重复甲骨,发现45组新重片,提升数据整理效率。技术方案获德国汉堡大学、慕尼黑大学关注,未来计划拓展至敦煌遗书、简牍复原等领域。

七、安阳师范学院甲骨文信息处理教育部重点实验室刘永革教授团队

研发殷契文渊平台,是全球最大甲骨文数字化平台,对16万片甲骨进行三维建模和微痕增强处理,AI自动筛选可缀合碎片,已成功缀合105组甲骨。推进甲骨文全球数字化回归计划,联合腾讯SSV等机构,推动跨国甲骨数字化采集与共享,目标5-8年内实现全球甲骨数字化回归。

张宇鑫按:甲骨金文开古文字人工智能研究的先河,一个可能的原因是其文字数量少、文本辞例少、文献图片少,工作量小。对于超过30万枚且超过300万字且仍在源源不断出土的先秦秦汉简牍来说,未能率先开启人工智能研究,一个可能的原因也是其数量过大,从单简图版(远超30万个,存在大量残片)、单个字图(超300万个)、单字释文(超300万个)、相关辞例来说,其工作量应当是甲骨金文的数十倍甚至百倍以上。如果具备全智能化系统,可以自动完成整理图版、裁切字图、整理释文、整理辞例等工作,那么在数据的输入上可以缩小这一工作量上的差距。武汉大学简帛研究中心一直在艰辛地进行纯人工的简帛字形辞例数据库等的建设,但完成全部30万余枚简牍的数字化整理,目前来说其工作量远超已有人力。
 樓主| 發表於 2025-3-19 16:41 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-19 18:49 編輯

人工智能入门基础书籍与课程

本帖帖文由DeepSeek-V3模型結合深度思考R1生成。所有工作均由筆者完成,以下是輸出結果。


对于零基础学习人工智能和大模型设计的初学者,若只能选择一个课程或一本书,以下是最推荐的选项及理由:

### **最推荐书籍**:《AI大模型开发之路:从入门到实践》

**推荐理由**:  
1. **全面覆盖,适合零基础**  
   该书从人工智能基础概念讲起,包括自然语言处理简史、深度学习原理,逐步引导读者理解大模型的核心技术(如Transformer架构),并深入实践应用(如调用百度千帆、OpenAI API和LangChain框架)。内容由浅入深,适合零基础学习者建立完整的知识体系。
2. **理论与实践结合**  
   书中包含丰富的实战案例,涵盖API调用、模型部署、优化策略等,帮助读者从代码配置到项目开发全流程掌握技能。例如,通过新闻稿生成器、智能问答系统等案例,学习者可直接将理论应用于实际场景。
3. **行业应用导向**  
   针对当前热门的AI应用场景(如企业级Agent、知识库构建等),书中提供了具体的技术方案和部署指南,助力学习者快速适应行业需求。

### **备选推荐**:DeepSeek人工智能通识课(深圳大学与腾讯云合作课程)  

**推荐理由**:  
- **前沿技术整合**:课程涵盖AIGC、自然语言处理、多模态应用等,结合DeepSeek模型的实际案例(如自动化办公、智能推荐),适合希望快速接触行业前沿的学习者。  
- **跨学科视角**:课程不仅讲解技术原理,还探讨伦理、隐私等社会影响,培养综合思维能力。  
- **免费资源与实验环境**:提供本地化部署的DeepSeek实验环境,便于动手实践。

### **其他高价值学习资源**  
1. **《大模型应用开发极简入门:基于GPT-4和ChatGPT》**  
   适合希望快速上手开发应用的学习者,重点讲解提示工程、模型微调、LangChain框架等实战技巧,附带代码示例。  
2. **《动手学深度学习(PyTorch版)》**  
   李沐经典教材,系统讲解深度学习基础,适合夯实数学和算法基础。  
3. **《神经网络与深度学习》(邱锡鹏著)**  
   中文深度学习权威教材,深入浅出,配套案例与实践指南。

### **学习路径建议**  
1. **基础阶段**:优先阅读《AI大模型开发之路》,掌握Python、深度学习和Transformer核心原理。  
2. **实践阶段**:结合书中案例,尝试调用OpenAI API或本地部署模型(如DeepSeek),完成简单项目(如问答机器人)。  
3. **进阶拓展**:学习《大模型应用开发极简入门》或参与DeepSeek课程,深化对Agent、RAG等技术的理解。

**总结**:若仅选择一项资源,《AI大模型开发之路》是最优解,因其系统性和实用性兼顾。若偏好课程形式,可优先参与DeepSeek通识课,快速链接行业应用场景。

谢雪葵编著:《AI大模型开发之路:从入门到实践》,中国水利水电出版社2024年。

封面

封面

目录第1页

目录第1页
 樓主| 發表於 2025-3-20 11:40 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-20 15:31 編輯

简牍整理研究人工智能大模型的研发方案

本帖帖文由DeepSeek-V3模型結合深度思考R1生成,结合笔者人工修改,探索人工智能(AI)在簡牘整理与研究中的應用。


开发一个专注于简牍文字研究的大模型(如GPT-4级别的大型语言模型或多模态模型),需要结合古文字学、人工智能、计算机视觉和文献学等多学科知识。以下是具体的技术路径与研发建议:

### **一、核心目标与研究方向**
1. **核心功能需求**  
   - **字形识别与释读**:对模糊、残缺的简牍文字进行自动识别和释读。  
   - **缀合复原**:通过AI算法自动匹配简牍碎片,辅助物理或数字化缀合。  
   - **语义分析**:解析简牍文献内容(如法律文书、账簿、典籍),支持关键词检索、主题分类和跨文本关联。  
   - **多模态交互**:结合图像、文本、三维扫描数据,构建可交互的数字化研究平台。

2. **技术难点**  
   - 简牍文字异体字繁多,书写风格差异大(如楚简、秦简、汉简)。  
   - 简牍保存状态复杂(虫蛀、褪色、断裂),需处理低质量图像数据。  
   - 古汉语语义与现代差异大,需构建领域专用词库和知识图谱。

### **二、研发路径与关键技术**
#### **1. 数据准备与标注**
- **数据来源**:  
  - 整合现有数据库(如清华大学战国文字数据库、台湾中研院简帛词汇库)。  
  - 采集高分辨率红外扫描图像(如北大藏汉简、里耶秦简)。  
  - 引入考古报告和释文注释(如《睡虎地秦简》《岳麓书院藏秦简》)。  
- **数据标注**:  
  - **字形级**:标注单字轮廓、笔划顺序、异体字变体。  
  - **简牍级**:标注简牍材质、出土地层、时代、上下文语义标签。  
  - **多模态对齐**:建立图像(原简)、摹本、释文、注释的四层关联。

#### **2. 模型架构设计**
- **基础模型选择**:  
  - **视觉模块**:使用CNN(如ResNet)或Vision Transformer处理简牍图像。  
  - **文本模块**:基于BERT架构预训练简牍专用语言模型(需构建古汉语语料库)。  
  - **多模态融合**:通过CLIP-like架构对齐图像与文本特征,支持“以图搜文”和“以文搜图”。  
- **领域增强技术**:  
  - **知识图谱嵌入**:将简牍中的历史人物、地名、官职等实体关联到外部知识库(如《中国历史地理信息系统》)。  
  - **异体字映射**:构建简牍异体字到标准字的转换规则库(如楚简“心”部字形的30种变体)。

#### **3. 关键技术突破**
- **低质量图像增强**:  
  - 采用生成对抗网络(GAN)修复模糊字迹,如基于CycleGAN的简牍图像超分辨率重建。  
  - 红外与可见光图像融合技术,突出墨迹与背景对比度。  
- **上下文感知缀合**:  
  - 结合语义连贯性(文本内容)与物理特征(断口形状、简牍纹理),训练多任务学习模型。  
  - 参考“缀多多”工具(甲骨缀合AI),开发简牍专用“简多多”算法。  
- **古汉语语义建模**:  
  - 构建简牍领域词向量(Word2Vec/BERT),解决一词多义(如“行”在律法、军事中的不同含义)。  
  - 引入注意力机制,捕捉简牍文本中的句式结构(如秦简法律条文固定格式)。

### **三、研发步骤与工具链**
1. **阶段一:基础数据与模型构建(1-2年)**  
   - 完成30万余片简牍图像与释文的数据清洗和标注。  
   - 训练简牍专用视觉模型(如简牍版YOLO用于单字定位)。  
   - 发布开源预训练语言模型(如“JianBERT”),支持古汉语分词与命名实体识别。

2. **阶段二:多模态系统集成(2-3年)**  
   - 开发简牍研究平台,集成以下功能:  
     - **智能释读**:输入简牍图像,输出释文及可信度评分。  
     - **交互式缀合**:拖拽碎片,AI实时推荐匹配候选。  
     - **语义检索**:输入关键词(如“田律”),检索跨时代、地域的相关简牍。  
   - 推出API接口,供学术界调用核心功能。

3. **阶段三:领域知识扩展(长期)**  
   - 与考古学结合:通过简牍内容分析历史事件时空传播(如HGIS技术)。  
   - 与材料科学结合:分析简牍材质(竹/木)与文字保存状态的关系。  

### **四、潜在挑战与解决方案**
| **挑战**                | **解决方案**                                             
| 数据稀缺性              | 采用数据增强(旋转、噪声模拟)、迁移学习(借用甲骨文/金文模型参数)      
| 跨学科协作壁垒          | 建立古文字学家与AI工程师的联合标注团队,设计可视化标注工具(如LabelStudio)
| 计算资源需求            | 优先使用轻量化模型(如MobileNet),部署边缘计算(博物馆本地化处理)        
| 学术可信度              | 输出可解释性结果(如高亮识别依据),支持学者手动修正AI结论            

### **五、应用场景示例**
1. **考古现场快速处理**:  
   - 利用手机拍摄新出土简牍,实时生成初步释文和缀合建议。  
2. **历史研究辅助**:  
   - 自动提取简牍中的法律条文变迁,生成战国至秦汉制度演变图谱。  
3. **公众教育**:  
   - 构建互动式简牍数字博物馆,用户可通过AR“虚拟书写”简牍文字。  

### **六、现有资源与合作建议**
- **数据合作**:  
  - 清华大学出土文献中心(战国简)、湖南大学岳麓书院(秦简)、甘肃简牍博物馆(汉简)。  
- **技术合作**:  
  - 甲骨文AI团队(如安阳师范学院“殷契文渊”组)共享异体字处理经验。  
- **开源社区**:  
  - 发布标注工具和基准数据集(如“JianBench”),吸引全球开发者参与。

通过以上路径,可逐步构建一个兼具学术严谨性与技术先进性的简牍研究大模型,推动出土文献研究从“人工考释”向“人机协同”的范式转变。
 樓主| 發表於 2025-3-20 12:04 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-20 12:23 編輯

简牍整理研究人工智能大模型研发的资金等各项要求

本帖帖文由DeepSeek-V3模型結合深度思考R1生成,结合笔者人工修改,探索人工智能(AI)在簡牘整理与研究中的應用。


### **建设简牍研究大模型所需资源分析**

#### **一、设备要求**
1. **计算设备**  
   - **GPU/TPU集群**:用于训练大规模深度学习模型(如NVIDIA A100/H100集群),支持图像处理、多模态融合任务。  
   - **高性能服务器**:存储和处理海量数据,配备高速SSD和大内存(如单节点1TB内存+PB级存储)。  
2. **数据采集设备**  
   - **高分辨率扫描仪**:用于简牍数字化(如红外扫描仪、多光谱成像设备),提升低对比度文字识别能力。  
   - **3D建模工具**:对断裂简牍进行三维重建(如Artec 3D扫描仪)。  
3. **边缘计算设备**  
   - 移动端设备(如便携式GPU工作站),支持考古现场实时处理。

#### **二、资金预算**
| **项目**                | **预算范围(人民币)**  | **说明**                           
| **硬件采购**            | 500万-1000万         | GPU集群(约300万)、存储设备(100万)、扫描仪(100万)、边缘计算设备(50万)。      
| **数据采集与标注**      | 200万-500万            | 获取简牍图像版权(如博物馆合作)、标注团队薪资(古文字专家+标注员)。                  
| **研发团队薪资**        | 800万-1500万/年      | 包括10-20人团队(AI工程师、古文字学家、项目经理等),年均薪资50万-80万/人。           
| **算法开发与云服务**    | 200万-400万/年         | 云计算资源(AWS/GCP)、开源工具链维护、模型迭代训练。  | **学术合作与推广**      | 100万-200万             | 国际会议、论文发表、开源社区建设。         
| **总计**             | **1800万-3600万(3年)**    | 按3年周期估算,实际需根据项目阶段动态调整。     


#### **三、时间规划**
1. **阶段一:数据基建(1-1.5年)**  
   - 完成简牍数据采集、清洗、标注(30万+图像与释文)。  
   - 搭建基础硬件环境与开源工具链。  
2. **阶段二:模型开发(1.5-3年)**  
   - 训练视觉与文本预训练模型(如JianBERT)。  
   - 开发多模态交互平台原型。  
3. **阶段三:优化与应用(3-5年)**  
   - 模型迭代(提升准确率、扩展功能)。  
   - 推出学术版与公众版应用(如AR教育工具)。  

#### **四、人力资源需求**
1. **核心团队构成**  
   - **古文字学家**(3-5人):指导数据标注、验证模型输出、制定领域规则。  
   - **AI工程师**(5-10人):负责模型架构设计、训练优化、多模态融合。  
   - **数据工程师**(3-5人):处理数据存储、标注工具开发、分布式计算。  
   - **项目经理**(1-2人):协调跨学科合作、资源分配与进度把控。  
2. **外部合作**  
   - 与博物馆、考古机构合作获取数据(如甘肃简牍博物馆)。  
   - 联合高校(如清华大学、武汉大学)建立联合实验室。  

#### **五、技术知识要求**
1. **核心技术栈**  
   - **深度学习框架**:PyTorch/TensorFlow,支持自定义模型开发。  
   - **计算机视觉**:图像增强(GAN、超分辨率)、目标检测(YOLO系列)。  
   - **自然语言处理**:古汉语分词、领域词向量训练(如Word2Vec、BERT变体)。  
   - **多模态技术**:CLIP-like跨模态对齐、知识图谱嵌入(如Neo4j)。  
2. **领域知识**  
   - 简牍文字特点(如楚简、秦简书写差异)。  
   - 历史背景(如秦汉法律制度、战国文献分类)。  
3. **工具链**  
   - 数据标注平台(LabelStudio、CVAT)。  
   - 模型可解释性工具(SHAP、LIME)。  

#### **六、关键挑战与应对策略**
| **挑战**                | **应对策略**
                                    
| **数据分散性与版权限制**  | 签订多方合作协议(如博物馆、考古所),制定数据共享协议与隐私保护机制。         
| **跨学科沟通效率低**    | 设立定期研讨会,开发可视化工具(如简牍标注平台),降低术语壁垒。              
| **模型泛化能力不足**    | 引入迁移学习(借用甲骨文模型参数)、数据增强(模拟简牍腐蚀、虫蛀效果)。         
| **长期资金链断裂风险**  | 分阶段申请国家社科基金、企业合作(如科技公司文化遗产项目),探索商业化场景。   

#### **七、可行性总结**
建设简牍研究大模型需**跨学科深度协作**与**持续资源投入**,但技术路径已逐步成熟(参考甲骨文AI成功案例)。通过整合现有数据库、优化轻量化模型、设计渐进式研发步骤,可在5年内实现从基础研究到实际应用的跨越,推动简牍学进入智能化时代。
 樓主| 發表於 2025-3-20 18:43 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-20 19:03 編輯

学习黄德宽先生对古文字与出土文献研究人工智能化的重要论述

古文字研究和学科建设,要围绕加强理论综合研究、交叉学科人才培养,以及信息技术与人工智能应用等关键环节,着力建构具有中国特色、世界影响的古文字学自主知识体系和新兴交叉学科。

古文字研究对智能技术的积极尝试和初步应用,已悄然推动古文字数字化进程。清华大学开展计算甲骨学研究,取得较大进展和阶段性成果,并将启动建设计算古文字学实验室。吉林大学在人工智能与古文字交叉领域发表多篇学术论文,开发出“吉金识辨·青铜器智能断代与辨类”程序,并建成青铜器数据库。复旦大学发布“缀玉联珠”甲骨缀合信息库,可便捷查检相关信息。首都师范大学与微软亚洲研究院合作研发基于自监督学习的甲骨文校重助手Diviner,开创人工智能与甲骨文专家协作(AI+HI)整理甲骨文的新范式。此外,还有一些高校和研究单位在甲骨文等古文字信息处理和技术研发方面也开展了积极尝试,如甲骨文发现地河南省安阳市安阳师范学院获批建立教育部甲骨文信息处理重点实验室,着力打造“殷契文渊”甲骨文大数据平台。这些工作虽然还只是应用智能技术研究古文字取得的初步成果,但有关研究单位对智能技术跨学科研究的重视和布局,为古文字研究与学科建设展现出令人期待的前景。

跨越人文与科学技术界域,真正发挥信息技术、人工智能在古文字交叉研究中的优势,需要能够贯通信息技术与古文字知识的高水平交叉学科人才,这类人才目前最为紧缺要加快培养具有交叉学科学术视野、知识结构和创新能力的古文字学后备人才。古文字学交叉学科人才培养,对古文字研究和学科建设具有决定性影响。

要把握智能技术革命的机遇,推进信息技术、数据科学和人工智能在古文字学交叉学科建设中的运用,探索建立人文学科与智能技术交叉融合的“计算古文字学”研究方向。一是依托信息技术改变古文字资料存储和利用方式,创建古文字资料收集整理的统一规范,整合已经完成的各类古文字材料整理成果,将数量巨大、内容庞杂的古文字资料进行数字化处理,为古文字研究全面快捷获取、使用各种古文字资料提供便利。二是引入数据挖掘、数据分析等计算工具,整合已有的各类工具书,汇集各种古文字研究有价值的成果,建立各类古文字资源数据库平台,构建古文字知识图谱,让人工智能系统成为古文字学者的得力助手。三是利用人工智能探研古文字知识新的生产方式,创新和重构数字化条件下的古文字研究范式,为适应数字化时代需要、全面提升古文字整理研究和阐释水平注入强劲动力。虽然智能技术在古文字学领域运用尚处于摸索阶段,但古文字学交叉学科建设与智能技术的结合则是必然趋势,在二者深度融合的基础上创立“计算古文字学”新交叉学科方向将成为可能。

尽管数字技术革命为古文字学交叉学科发展描绘出令人乐观的前景,但是要实现古文字学与智能技术深度融合还要经历漫长而艰难的过程,而且再先进的人工智能也只是古文字研究的赋能工具,对古文字研究和学科建设未来起决定作用的,最终还是要依靠具有交叉学科视野和创新能力的古文字学者。

作者:黄德宽,清华大学出土文献研究与保护中心主任、博士生导师,教育部“古文字与中华文明传承发展工程”专家委员会主任委员兼首席专家,中国文字学会会长,中国文字博物馆馆长。节选自黄德宽:《新时代古文字学学科建构》,《历史研究》2024年第12期。
您需要登錄後才可以回帖 登錄 | 立即注册

本版積分規則

簡帛網|手机版|小黑屋|

GMT+8, 2025-6-15 16:53 , Processed in 0.042027 second(s), 13 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表