2022年5月南京財經(jīng)大學信息工程學院大數(shù)據(jù)2001班牛趙蕊、朱儀桉、訾明琛、張淑婷、周曉敏五位同學在李樹青院長的帶領下,啟動了大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目:獵職“圖”鑒——基于個性化服務的大數(shù)據(jù)崗位畫像與推薦服務。
隨著互聯(lián)網(wǎng)+時代的到來,大數(shù)據(jù)技術的不斷進步,大量的職業(yè)招聘平臺應運而生。目前,國內(nèi)已經(jīng)有開源中國招聘、智聯(lián)招聘、前程無憂、獵聘、BOSS直聘等豐富的互聯(lián)網(wǎng)招聘平臺,國外有Indeed、Monster、Glassdoor、FlexJobs等。
然而,目前的招聘平臺看似發(fā)達,但仍存在局限性,沒有專門為應屆畢業(yè)生設計的求職渠道,更沒有應用基于大數(shù)據(jù)和數(shù)據(jù)分析得到的用戶畫像技術,導致人才同崗位適配度不高。特別是作為大數(shù)據(jù)專業(yè)的學生,很難找到合適的崗位,也很難通過現(xiàn)有的一些平臺去找到一個合理高效的求職途徑。因此,該團隊提出構建個性化崗位推薦服務系統(tǒng),為大數(shù)據(jù)專業(yè)學生求職就業(yè)提供更為準確的企業(yè)崗位建議參考,同時實現(xiàn)招聘精準化。
以下是該項目的查詢系統(tǒng)的交互界面。
面對龐大的數(shù)據(jù)面和數(shù)據(jù)流,該團隊選取了Python這一在數(shù)據(jù)獲取方面具有天然優(yōu)勢的編程語言。該項目采用網(wǎng)絡爬蟲技術,抓取招聘網(wǎng)站有關大數(shù)據(jù)崗位信息,并對得到的崗位招聘信息進行文本分析,獲取需求。其中,成型技術主要分為網(wǎng)絡爬蟲、數(shù)據(jù)清洗、文本分析和可視化四大模塊。動態(tài)網(wǎng)絡爬蟲(如Scrapy)能夠提供最新、最及時的信息,甚至能夠做到實時更新;數(shù)據(jù)清洗可以去除可能存在的重復或是冗余數(shù)據(jù),提高了數(shù)據(jù)集的相關性,加強了可信度;運用文本分析進一步分析數(shù)據(jù),通過分詞攫取關鍵字,便于數(shù)據(jù)分類整合;最后運用matplotlib進行數(shù)據(jù)可視化,將清晰明了的圖表展現(xiàn)給用戶,對于崗位進行技術角度畫像分類之后,利用軟件展示系統(tǒng),可以通過觸屏方式輸入技術查詢信息,呈現(xiàn)崗位信息,并會保留個人數(shù)據(jù)記錄,根據(jù)搜索的信息進行記錄畫像,極大方便了用戶操作,優(yōu)化用戶體驗感。
以下為軟件展示系統(tǒng)的組織流程圖。
2022年5月-7月,團隊對市面上幾個主流招聘網(wǎng)站針對大數(shù)據(jù)崗位的招聘信息進行爬取并進行可視化呈現(xiàn),利用Scrapy技術對大數(shù)據(jù)崗位不同技能的信息進行分類。
2022年7月-12月,團隊對搜索到的大量數(shù)據(jù),進行數(shù)據(jù)清洗,提取處理大量的數(shù)據(jù),運用文本分析的方法,將數(shù)據(jù)聚類以及運用Python、Matlab進行代碼編寫,進行數(shù)據(jù)可視化。
2022年12月-2023年2月,團隊根據(jù)相關論文文獻,以及網(wǎng)站社會分析,對于崗位進行技術角度的畫像分析,利用軟件展示系統(tǒng),對于研究過程成果形成相關報告。
2023年2月-4月,形成相關論文,申請了2項軟著。
2023年5月,對實驗進行檢驗篩查保證運行正常并完結項目。
圖為團隊成員集中討論核心代碼的編寫和圖形化界面的設計
圖為該團隊成員商討下一階段的目標任務
歷時近一年,在2023年5月,該項目終于迎來了完結的尾聲。從最初的項目構思,到項目成型,再到軟件系統(tǒng)搭建,一路上5位同學遇到了諸多難題,但他們借助自己的專業(yè)所學,依靠爬蟲抓取崗位數(shù)據(jù),借助文本分析形成崗位畫像,搭建出一套基于個性化服務的大數(shù)據(jù)崗位畫像推薦系統(tǒng)實現(xiàn)大數(shù)據(jù)崗位專一化、畫像維度全面化、招聘精準化的可視化軟件展示系統(tǒng),指導學生就業(yè)、公司招聘,提供政府政策支持。