二維地圖:一鍵檢索唐代詩人一生行跡與作品
歷代以來,,學者們對唐詩的批評和研究,,無論是詩話、評點,,還是選本、詩壇點將錄等傳統(tǒng)形式,,大部分是感悟,、直覺和印象式的,缺少整體上的理論思辨,。而時至今日,,我們可以通過定量分析和大數(shù)據(jù)的方法,為唐詩研究帶來哪些改變呢?王兆鵬指出,,唐詩研究領域至少需要作家,、作品、讀者三個方面的數(shù)據(jù),。從作家角度來看,,我們所需要的信息,有時間層面的生卒年,、享年,、進士及第年、進士年歲,、創(chuàng)作起始年,、創(chuàng)作終止年等;空間層面的出生地(籍貫)、定居地,、去世地,、活動地、貶謫地等;以及身份層面的帝王,、宰相,、將軍、帥臣,、幕僚,、官員、隱士,、布衣,、僧道,、歌妓等等,都應該進入研究的視野,。
近年來,,王兆鵬及其學術研究團隊從《全唐詩》《全唐文》的作家小傳、《中國文學家大辭典·唐代卷》,、年譜及生平考證類論著中持續(xù)挖掘相關數(shù)據(jù),,先后制作成《唐代詩人信息統(tǒng)計表》《唐代文學編年地圖平臺》等多個數(shù)據(jù)庫(表)。他們在不斷摸索中改進,,試圖尋找出海量數(shù)據(jù)背后文學衍生發(fā)展的規(guī)律,。
在今年3月24日上線的"唐宋文學編年系地信息平臺"中,王兆鵬所提出的"量化分析唐詩及詩人"的研究設想得到了較為充分的展現(xiàn),。經(jīng)過歷時五年的數(shù)據(jù)挖掘后,,這個平臺現(xiàn)在可以呈現(xiàn)出151位唐宋詩人一生的行跡路線圖,北至蒙古烏蘭巴托,,南至越南清化,,點擊路線圖中的任一地點,系統(tǒng)即會詳細顯示出某位詩人在此地創(chuàng)作的詩歌作品,。此外,,搜索者也可以以地點或年份為關鍵詞進行檢索。例如,,我們?nèi)糨斎肽攴?公元701年"(則天順圣皇后長安元年),,就能得出這一年詩人們的履歷:李白出生于西域碎葉城(今吉爾吉斯斯坦托克馬克市),王維出生于晉中,,12歲的孟浩然在襄陽居鄉(xiāng)讀書,,45歲的宋之問則從鄭州來到洛陽又到西安,寫下多首詩作,。
王兆鵬指出,,用傳統(tǒng)的方式編纂的詩人年譜或者作家全集,往往是從單一的時間或者空間層面展示作家的創(chuàng)作情況和生平經(jīng)歷,。而與之相比,,"唐宋文學編年系地信息平臺"最大的特點就在于"打通了時空維度",用形象化,、可視化的方式展現(xiàn)出多位詩人的生平行跡和創(chuàng)作情況,,使文學地圖進一步走向立體化。
宏觀視野:把評價詩歌的尺子拉長,,再拉長
王兆鵬在"唐詩量化研究"領域的探索除制作文學地圖以外,,還包括多種數(shù)據(jù)分析嘗試,不斷提出了新的問題,諸如:
問:20世紀的李白研究中,,研究者最關注李白的哪一篇詩文?
答:《蜀道難》,,共有107篇論文專門討論這首詩。
問:20世紀李白研究的學者群體中,,誰的論文最多?
答:排名第一的是南京師范大學郁賢皓先生,,共66篇。此外河南社科院的葛景春,、日本松浦友久等學者的成果也較多,。
正是通過對一個個看似碎片化問題的回答,王兆鵬摸索出了自己的"唐詩數(shù)據(jù)挖掘"方式--把評價詩歌的時間尺度拉長,、再拉長,,力求從宏觀視野來觀照唐宋詩歌的整體狀貌。一方面,,他相信,,統(tǒng)計數(shù)據(jù)可以將文學空間的分布與位移集約式地呈現(xiàn)出來。例如,,以唐宋詩人的籍貫數(shù)據(jù)為基礎進行統(tǒng)計,王兆鵬發(fā)現(xiàn),,"唐代有時代,、籍貫可考的詩人共1686人,其中北方詩人為949人,,占56.3%,,北方略占優(yōu)勢","而宋代有時代和籍貫可考的詩人為5694人,,其中南方為4908人,,占86.2%,南方占絕對優(yōu)勢",。如果從省份數(shù)據(jù)進一步分析,,他指出,"唐代,,占籍詩人最多的三個省份是河南,、陜西與河北","宋代詩人最多的省份是浙江,,有1437人,,占宋代有籍貫可考詩人總數(shù)的25.2%"。值得注意的是,,通過這些數(shù)據(jù)我們可以發(fā)現(xiàn),,唐宋詩歌版圖南移的時間和社會經(jīng)濟文化重心南移的時間并不完全一致,這個現(xiàn)象可以糾正我們某些固有的"標簽化"觀點。一般認為,,北宋王朝的毀滅代表了中國經(jīng)濟文化重心南移的真正分野,,而王兆鵬通過大數(shù)據(jù)的證明認為,中國詩壇重心的南移,,始于晚唐五代,,完成于北宋。
另一方面,,我們還可以通過對歷代的唐詩選本,、評點資料和研究論文的計量分析來排定唐詩宋詞的影響力榜單。在講座現(xiàn)場,,王兆鵬展示了自己從2005年開始嘗試和2011年初步排定的《唐詩排行榜》,。這份榜單主要以70余種唐詩選本、歷代評點唐詩,、20世紀唐詩研究論文和相關文學史著作等方面的數(shù)據(jù)為基礎,,通過極復雜而周密的方法,排列一百首影響力最大的唐詩作品,。顛覆大眾對唐詩印象的是,,通過統(tǒng)計得出,歷代以來影響力最大的唐詩是崔顥的《黃鶴樓》(昔人已乘黃鶴去),,其次是王之渙《涼州詞》(黃河遠上白云間),、杜甫《登高》、王之渙《登鸛雀樓》和張繼《楓橋夜泊》等,,而可能更為大眾所熟知的陳子昂《登幽州臺歌》等詩作則名落孫山,。
大家可能會疑惑,王之渙存世作品不多,,為什么會有兩首詩都排在榜單前列?王兆鵬認為,,這很有可能與詩歌的傳播力需要一個精彩的故事有關。著名的"旗亭畫壁"的故事為王之渙《涼州詞》增色不少,。據(jù)說,,在開元年間,王昌齡,、高適和王之渙三位詩人去旗亭(即酒樓)小飲,,忽有幾位歌妓演唱當時知名詩人的作品。幾首過后,,在座詩人王昌齡和高適的作品都被唱過,,唯獨王之渙的沒有,然而他淡定地說:"剛才唱的都是下里巴人的俗曲,,我們來聽聽那位最美的歌妓唱誰的詩,。"果然,,那位頭牌歌妓開口唱的就是王之渙的那首"黃河遠上白云間……"。足見《涼州詞》在當時受普通民眾歡迎的程度,。
盡管眾多的文史愛好者欣喜于數(shù)字化及可視化研究可能給傳統(tǒng)人文學科帶來的積極影響,,然而,學術界對"唐詩大數(shù)據(jù)"研究方式仍存有不少疑慮,。
部分人文學者認為,,類似的"唐詩影響力排行榜"固然可能有益于在當今社會傳播經(jīng)典,但進行唐詩排名的根據(jù)存在邏輯問題,。不同于傳統(tǒng)的"點將錄"批評方式,,近代的排行榜更多基于對相關數(shù)據(jù)的可靠收集和精準分析。若以歷代唐詩選本入選唐詩,、歷代唐詩評點,、唐詩研究論文、文學史中提及唐詩的數(shù)據(jù)為基礎進行排行,,難免會招致一系列質(zhì)疑:歷代選本選唐詩的標準并不一致,,這份排行榜具體能代表哪個時期的詩歌審美趣味?研究論文選題、文學史詩歌批評受時代和資料條件影響較大,,能不能有效反映詩歌的社會評價?如果考慮到中國港臺地區(qū)和東鄰日本的人文環(huán)境和詩歌傳播情況,,唐詩排行榜的說服力是否還需進一步思考?類似的問題從《唐詩排行榜》推出之日起,就不斷縈繞在關注者的話題之中,。究竟唐詩需不需要排名?應該以何種標準排名?顯然是現(xiàn)今學術界還不能完全達成一致的問題,。
與此同時,關注"唐詩系年系地地圖"領域的數(shù)據(jù)分析愛好者也很不滿足,。"唐宋文學編年系地信息平臺"已經(jīng)取得一定的成果,但若與技術工具的發(fā)展相對比,,又難免令人興起望洋之嘆,。目前,"唐宋文學編年系地信息平臺"的信息展示方式僅有點狀散點圖一種,,但現(xiàn)今大眾常用的數(shù)據(jù)地圖至少包括氣泡圖,、面積圖、點狀圖和熱力圖四種,,每一種又各有豐富的操作工具和呈現(xiàn)方式,。如果考慮到與詞云、指標卡,、計量圖,、瀑布圖、?;鶊D,、旭日圖和雷達圖等多種信息圖(Infographic)的綜合使用,,那么未來的文學地圖數(shù)據(jù)可視化(Data Visualization)之路,應該會走向形式更加豐富的交互式可視化方向,。
此外,,更加重要的是,大數(shù)據(jù)分析方式的核心基石是海量異構數(shù)據(jù)(massive heterogeneous data),,目前"信息平臺"僅僅有不到兩百位唐代詩人的行蹤和詩歌數(shù)據(jù),,預計到年底詩人的數(shù)量可以增至500余位,然而這與唐代詩人的總量相比仍然略顯單薄,。因此,,快速增加大量相關詩人的數(shù)據(jù)就成為"信息平臺"發(fā)展和維護的當務之急。據(jù)王兆鵬介紹,,項目組下一步可能會與哈佛大學費正清研究中心《中國歷代人物傳記資料數(shù)據(jù)庫》項目組合作,,共享數(shù)據(jù)資源。
《經(jīng)濟學人》雜志的數(shù)字編輯肯尼思·庫克耶(Kenneth Cukier)在其著名的TED演講"大數(shù)據(jù)好處多"(Big Data is Better Data)中曾提出:"現(xiàn)在,,更多的數(shù)據(jù)不僅僅讓我們在同一件事情上了解更多,,它可以我們有新的發(fā)現(xiàn),能更好地了解,,并讓我們從不同視角去理解事物,。"在海量數(shù)據(jù)和數(shù)據(jù)可視化的基礎上,傳統(tǒng)人文研究能否走出一條兼具信度效度與吸引力的創(chuàng)新研究之路,,將是人文研究者和數(shù)據(jù)分析師未來需要共同回答的命題,。
(編輯:映雪)
