达观数据研发的一款大语言模型,该模型以“曹植”命名。曹植,东汉末年著名文人,他才情横溢,赞美之声和忧国之词令人回味无穷,有“才高八斗”之称。“七步成诗”的典故更是名垂千古。达观“曹植”大语言模型之所以如此命名,也是源于“七步成诗”的典故。
在信息化时代,人工智能并不仅仅是一种技术,更是一种文化的积淀与传承。达观数据有幸结识到曹植第70代后人曹珍富先生,并邀请其分享《我和我的治学人生》为主题的人生感悟。
曹珍富简介
曹珍富,现华东师范大学教授,其教授的学术生涯可以被概括为三个主要阶段:解决别人的问题,开创自己的新方向,并走向应用。
1983年至2001年,曹珍富教授在哈尔滨工业大学(哈工大)任教,先后担任副教授、教授、博士生导师,创建并领导了信息安全研究所和直博部。他因解决了塔塔可夫斯基问题、莫德尔问题、埃尔多斯问题等重大学术问题,被越级提升为副教授,并破格提升为教授。
2001年至2016年,曹珍富教授离开了学习、工作22.5年的哈工大,回到南方,接受上海交通大学聘请,担任教授、博导、特聘教授等职务,并创建了可信任数字技术实验室。在这个阶段,他开始开创自己的新研究方向,超前地提出并解决问题。
自2014年5月至今,曹珍富教授在华东师范大学任教,担任教授、博导、特聘教授等职务,创建了密码与安全研究中心和密码与网络安全系。他在此期间将研究重心转向应用,提出并采用了一种颠覆性的方法,进一步推动了学科的发展。
任教期间曹珍富教授发表了500余篇高水平学术论文,出版专著7部。先后主持国家自然科学基金项目 、科技部863计划、铁道部重点项目、教育部博士点优先发展项目等,获得省部级以上奖励9项。早年还获得国家杰出青年基金、中国科学院青年奖励研究基金、霍英东教育基金会青年教师奖、上海徐光启科技奖章金奖、华东地区IT英才奖、国际旗舰会议IEEE ICC最佳论文奖等。
关于曹姓与曹植
分享中,曹教授还分享了曹姓的起源以及自己家族族谱的故事。曹姓源于黄帝第九代孙曹安,曾协助大禹治水,被封为曹官。但曹安的后代并未沿用曹姓,直到周朝初年,周武王的弟弟振铎被封为曹国国君,开始以国为姓,使大部分曹姓的后代以他为始祖。同时,还有另一支曹姓,源自曹安的后代曹侠,尽管历史压力使他们曾改姓邾,甚至邹、朱,但部分家族又复姓曹。其中,曹操是曹振铎第四十三代孙,曹植是曹操的第四个儿子。
曹植,字子建,被称为历代第一奇才。《南史·谢灵运传》载:“天下才共一石,曹子建独得八斗。”曹植十八岁左右,写了传世之作《斗鸡》、《娱宾赋》和《公宴》等,其中《斗鸡》和《公宴》均为长诗。曹植作为建安文学的代表人物与集大成者,他在两晋南北朝时期,被推尊到文章典范的地位。其耳熟能详的传世代表作有《洛神赋》、《白马篇》、《七步诗》等。对曹植的评价,除了前述《南史》评价他一人独占80%世间之才,中国南朝文学批评家钟嵘亦赞曹植“骨气奇高,词彩华茂,情兼雅怨,体被文质,粲溢今古,卓尔不群。”并在《诗品》中把他列为品第最高的诗人。
“我”的治学人生
曹教授的成长背景充满挑战。他出生于一个贫穷的农村家庭,他是八个兄弟姐妹中的老七。虽然生活在物质极度缺乏的环境中,曹教授凭借他的聪明才智和坚毅精神,逐步学会了阅读和写作。他每天在脑海复习学过的内容,逐渐形成了一种个人的学习方法。这种方法不仅让他在学业上取得了显著的成功,而且在他的整个生涯中也得到了应用。1970年,他的父母鼓励他上学,因为他们发现他算数很快。他晚于同年龄的孩子上学,但凭借自己的努力,他在二年级被老师接受进入班级,这节省了他一些时间。曹教授一直享受学习,尽管在学习之前,他在家里做了很多劳动。他5岁开始养猪,并从中推导出很多数学知识。他还分享了他在农村理解人类生育规律的经历,这让他发现,只要用心去学,就能自己做主,推导出许多知识。曹教授形成了不用笔和纸学习的习惯。当他四年级时,学校经常让和五年级合班,他顺便也学会了五年级的知识,甚至在一次五年级数学考试中,只有他一个人满分。曹教授坚称他的学习方式很“笨”,但是他认为只要坚持,就能学到很多东西。他将自己的学习方式称为“回忆法”,他每天都在脑中回想老师讲过的东西。高中时,他的家离学校有17里路,回家的路途中也用于学习。他发现,当他专心思考时,他不会害怕任何事情,包括经过坟场和被认为是闹鬼的地方。在高中时期受到关于陈景润的报告文学影响,对哥德巴赫猜想产生兴趣。热衷于自学,并尝试改进学习到的知识和算法。大学期间,曹教授积极发表学术论文,毕业时已有50多篇稿件,其中8篇已发表。由于学术表现出众,曹教授被学校邀请留校任教。在哈尔滨工作18年半期间,曹教授在学术上主要解决别人提出的问题,包括像塔塔科夫斯基和埃尔多斯这样的大数学家提出的问题。然后曹教授来到上海,希望开创自己的研究方向。曹教授开始向学生传授自己的知识和思想,并鼓励他们去整理和发表相关的学术论文。曹教授鼓励学生在一个特定的研究领域建立自己的“成才树”,在达到一定高度后再扩展知识的宽度。曹教授分享到,”我有一个学生,利用这种方法和思想,赢得了全国36个国家级竞赛的最高奖项。他的项目实施速度快,理解知识快,所以他在各种竞赛中总能拿到最高奖。他的成就提升了华师大软件学院的排名,目前我们的软件工程学科仅次于清华,排名第二”。
分享过程中,曹教授讲到了一个奇妙而有趣的数字故事——‘’22.5‘’,这是一个非常奇妙且有缘分的数字,曹教授上大学领取一等助学金是22.5元,他工作的城市哈尔滨防洪纪念塔高22.5米,曹教授也在北方生活了22.5年,最奇妙的是曹植的墓宽22.5米。
曹植大模型特聘顾问
由于曹珍富教授是曹植的第70代后人,并且有深厚学术底蕴,尤其是在信息安全和数字技术领域做出了卓越的贡献,解决了多个重大学术问题,创立了多个研究机构,并推动了该领域的发展,因此达观数据特邀曹珍富教授担任曹植大模型的顾问。我们相信,曹珍富教授的加入将极大地推动达观曹植大模型的研发和优化,帮助达观数据做出更好的大模型产品。
曹植大模型
达观目前正在积极研发国产版GPT“曹植”大语言模型系统,作为垂直、专用、自主可控的国产版ChatGPT模型,其具有垂直行业、长文本、产品化三大特点。
该系统结合先进的自然语言处理(NLP)、智能文档处理(IDP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,不仅能实现专业领域的AIGC智能化应用,且可内置在客户各类业务系统中提供专用服务,目前已获得重要技术突破,以大量通用数据和领域数据自监督训练的LLM为基座模型,通过大量通用任务数据和领域任务数据进行Prompt Learning微调,在垂直领域内的理解和生成的任务上都达到了很好的效果。
未来,达观将继续致力于人工智能技术与产品的研究与落地。随着技术和产品的发展,人工智能技术与产品将应用到银行、证券、政务、制造等各行业更广更深的工作场景,达观数据也会持续投入相关产品技术研发,深耕行业场景应用,为众多行业持续创造更大的价值。