家谱字辈确定方法——基于上海图书馆《上川明经胡氏宗谱》研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
家谱字辈确定方法——基于上海图书馆《上川明经胡氏宗谱》研究
作者:潘文捷房彦甫
上海金融学院
摘要:本文通过研究上海图书馆收录的《上川明经胡氏宗谱》,结合世代信息和统计分析的方法,对家谱数据进行整理和提炼,得到胡氏宗谱的字辈信息,并与文献记载比照验证,证明结论正确,最终得到可复制的字辈信息整理分析方法。
关键词:上海图书馆字辈世代统计分析
引言
辈分,自古以来便是家谱、宗族中极为重要的一个元素,它使族属代代不乱,长幼有序,老少尊卑各有条理。辈分高者,即使尚处垂髫之年,族人亦需行礼以示尊重。而且,一个家族经过数代繁衍,子孙栖居于各地,如若有所交集或者重修家谱,断定世系关系在中国这个崇尚礼义的国度显得极为重要。若缺失字辈这一重要信息,家族内部成员间的关系不出几代即无人知晓,甚至于出现不分长幼的混乱局面。以曲阜孔家为例,自明初得皇室赐辈分字以来,六百余年间长幼关系俨然有序,分支传承清晰明了,即使孔府封号不再家族内部关系仍然坚固,其重要意义可见一斑。由此类推至《上川明经胡氏宗谱》(以下简称胡氏宗谱),如能得出本家族的辈分字,对于判断家谱中每一代人的关系、深入挖掘家谱的内涵信息、乃至历史学者研究本家族或是地方史,都具有极其重要的作用。
在研究胡氏宗谱时,我们发现,上海图书馆(以下简称上图)在录入字辈信息时存在一定的问题,如字辈信息缺失、同一代但是字辈不同、家谱中不存在字辈但是录入了字辈信息等问题。对此,我们基于胡氏宗谱进行研究,尝试寻找出解决方案,便于今后对其他家谱的字辈信息的整理。
背景
在研究胡氏宗谱时,为了更好的了解上图录入数据的结构和信息,我们尝试通过以下几种方式抓取和提取胡氏宗谱中的数据信息,并且,在尝试各种方法研究时,我们也发现了录入数据中存在的问题:
1)从下往上抓取数据
我们尝试以胡适为出发点,采用SPARQL查询语句,以“childOf”为连接点,先找到胡适的父亲,然后再找到其祖父,以此类推,希望能够找到胡氏宗谱记录的世代总数。但是,在采集过程中,我们发现,当查询语句找到胡千时,循环中止。
当时,我们查看了上图数据库,发现是因为胡千在当时并未录入“childOf”字段,也就是说,在上图数据库中,胡千没有父亲的记录。对此,我们前往上图查询了胡氏宗谱影印版,发现胡千和他的父亲胡七二为始迁祖,在家谱中分开记录,属于家谱中的特殊情况。
对于这个问题,我们立即询问了上图的管理人员,很快问题得到了解决。再次使用该方法查询时,便能找到家谱始祖胡昌翼。
2)从上往下抓取数据
在之后采集数据时,我们采用了从胡昌翼为出发点,采用SPARQL查询语句查找所有“childOf”为胡昌翼(在查询语句中为胡昌翼的URI)的URI信息,即找到胡昌翼的第二代,再依次找寻下一代。
并且,在查询时我们设置一个计数变量,当一代人查询完时,计数变量增加一个数值,最终确认家谱中共记录胡氏家族44代。
3)从下往上查询上图记录的家谱字辈信息
在最先抓取胡适家谱信息的时候,我们采取的是从辈分逆推整个家谱。
即在假定上图录入字辈信息准确的情况下,先抓取胡适辈分信息,在SPARQL语句中带入胡适辈分查询该本家谱中所有该辈分的人。然后抓取表第一人的信息,抓取其父亲URI,利用父亲URI查询父亲辈分并进行循环查询。该种方法虽然存在一些问题,(比如SPARQL 语句一次最多返回100条信息,可能一个辈分的人数大于100人),但是在抓取数据的过程中,意外发现家谱辈分出现问题,即在某一代辈分A之后,出现另一代辈分也是A,这导致循环语句重复运行,陷入死循环。
细究其原因,主要有两种可能,其一是我们已经找到了家族字辈语句,完成了一个循环的查询,其二便是字辈信息录入有误。
问题描述
在采集家谱字辈信息时,我们发现家谱的查询出现错误,我们对家谱中的人名进行随机查询,发现了存在的一些问题,以以下四个人为例:
图1:第七代胡时佐查询结果
图2:第七代胡全信查询结果
图3:第二十代胡春上舍查询结果
图4:第三十八代胡四喜查询结果
图5:第三十九代胡顺查询结果
从查询结果来看,主要包括以下几个问题:
1)胡时佐和胡全信同为家谱第七代,但字辈不一样;
2)胡春上舍在数据库中的字辈为上;
3)胡四喜字辈为四;
4)胡顺以及其他姓名为两个字的人名没有字辈。
根据上述例子,我们做出如下推断:
1)上图数据库的字辈录入采用的是选取姓名中的某个字作为字辈,如胡时佐和胡全信同
为家谱第七代,但字辈分别为名字中的“时”和“信”;
2)上图数据库的字辈录入方法为选取姓名的倒数第二个字作为字辈名,如胡春上舍和胡
四喜的字辈记录都为姓名的倒数第二个字;且字辈不能为“胡”,如两个字的姓名“胡顺”
等,没有字辈记录。
问题解决
根据以上我们发现的问题和推断,我们认为已经无法直接从上图数据库中直接下载字辈(generationCharacter)信息,因此,我们需要找到方法从家谱中提炼出正确的字辈信息,或者其他来源渠道直接获得胡氏家族的字辈语句。
当家族的字辈确定时,即便有人在取名没有将字辈放入名字中,但当样本量足够大时,这部分人会成为样本中的少数。
因此,我们尝试提出字辈确定方法,即当满足以下两个假定时:
1)某一代人的姓名样本量足够大;
2)姓名中姓氏后的第一个字分布呈现明显集中于某个字;
可以认为该家族的这一世代的字辈即为该字。
为验证方法的准确性,我们以胡氏宗谱为例进行分析,使用R语言对采集得到的姓名进行文本分离和统计分析,得到结果如下:
图6:前27代姓名分布
图6:28代至44代姓名分布
图7:28代至43代字辈频率
从结果来看,胡氏宗谱中前27代和第43代由于样本量小且姓名分布均匀,无法找到其字辈,根据此方法判断第28代至第43代的字辈依次为:普、道、玄、永、元、元、文、志、兆、应、天、德、锡、贞、祥、洪、恩。
为验证我们的方法和结论,我们查阅胡氏宗谱以及其他相关文献信息,其中记载:“吾族自三十六世以上,均无一定排行,祗以先取者为主;三十七世以下,始有天德锡贞祥洪恩毓善良等字,使人一诵而知行辈”,胡七二(胡千之父)以后字辈按千、贵、福、真、巽、祖,满、普、道、玄、永,元、文、志、兆、应,天、德、锡、贞、祥,洪、恩、毓、善、良排行。由于胡千即第21代千字辈至第27代满字辈样本量较小且分布均匀,使用此方法无法提炼字辈信息,而自第28代至第43代的提炼结果与家谱记载吻合,因此我们的方法和结论得到了验证。
结论
对于整理后有世代信息的数据,当满足以下两个条件时:
1)某一代人的姓名样本量足够大;
2)姓名中姓氏后的第一个字分布呈现明显集中于某个字;
可以认为该家族的这一世代的字辈即为该字。
建议
在研究上图数据库中的胡氏宗谱数据时,我们发现其中的字辈记录存在一定的问题,于是我们通过结合世代信息和统计分析的方法,对字辈信息进行整理和提炼,最终得到正确的字辈信息,并提出以下建议:
1)建议上图数据库在录入其他家谱数据时,可以采用同样的方法对家族进行世代整理排
序,有助于数据信息的管理和查找;
2)该方法可应用于其他满足条件的家谱,查询得到的字辈信息准确性较高。