職務経歴書パージングの変遷

R&Dチーム

はじめに

R&D チームの田嶋と森元です。本記事では、履歴書/職務経歴書パージングに関する研究を時系列で紹介していきます。

LAPRAS には、職務経歴書インポート機能があります。

この機能はその名称の通り、職務経歴書を LAPRAS 上に取り込む機能になっています。しかしこの機能は現在まだ自動化されていない機能になっています。そこで私たちは、職務経歴書の自動パージング実装やその先の情報を利用した可視化などを見据えて職務経歴書パージングに関する先行研究について調査しました。

本記事では、採用プロセスの課題に対して Systematic Literature Review を行っている「A Systematic Literature Review (SLR) On The Beginning of Resume Parsing in HR Recruitment Process & SMART Advancements in Chronological Order」という論文を引用して職務経歴書パージングに関する研究を紹介します。

SLRとは

Systematic Literature Review （SLR）とは特定分野や課題に対しての研究を、網羅的に調査してバイアスを評価しながら分析・統合を行うことです。
本記事で引用する SLR 論文では、適切な SLR ガイドラインに従って採用プロセスを促進するためのさまざまな機械学習・ディープラーニングアプローチの広範囲の研究がまとめられています。特に「履歴書/職務経歴書の解析」に重点が置かれています。また、採用プロセスを自動化する際に注意すべきさまざまな課題や倫理的考慮事項についても焦点を当てている論文となっています。

時代軸でパージング論文を紹介

SLR 論文において、SLR ガイドラインに従って対象の研究を集めたところ、履歴書/職務経歴書の解析に関する研究は古いものは 1975 ~ 1980 年のものもありますが、その多くは 2015 ~ 2020 年に集中しているそうです。
これは、1990 年代に人事部門が、それまで主に給与計算などの管理業務を中心とした領域から、事業の成長のための人的資源の戦略的活用を担う領域へと位置づけを変えたことや¹、インターネットの普及によりオンラインの求人掲示板が発展したことなどに起因し、人事部門がより効率的に業務を行うための Applicant Tracking System (ATS) などのシステムの需要が高まったことが影響しているそうです。
ATS などのシステムでは大量の応募の中から要件に合致した候補者を探すために、(その多くは非構造化データである) 履歴書/職務経歴書の解析が必要不可欠となります。

この SLR 論文では、時代や技術など複数の軸に基づいて研究がまとめられていますが、本記事では以上の経緯も踏まえ、これらの内時代の軸に沿って履歴書/職務経歴書の解析の研究の発展の軌跡を追いかけてみたいと思います。主に用いられている技術の変遷がつかめるように、SLR 論文からいくつかピックアップしていきます。

履歴書/職務経歴書の階層型構造に鑑みた HMM と SVM によるカスケード方式の情報抽出 (2005)

Yu K, Guan G, Zhou M (2005, June) Resume information extraction with cascaded hybrid model. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL’05) (pp. 499–506)

SLR 論文中で紹介される研究の中で最も古い研究になります。

この研究では、履歴書/職務経歴書は一般に、「職歴」や「学歴」など大まかなブロックの系列と、「在籍企業」や「出身校」など各大まかなブロックの中の詳細情報の二段階で階層的に構成されているという観察を踏まえ、履歴書/職務経歴書の大まかなブロックの抽出と、詳細情報の抽出の二段階で情報抽出を行うカスケード方式の方法を提案しています。
前段の大まかなブロックの抽出では隠れマルコフモデル (HMM) を、後段の詳細情報ではサポートベクターマシン (SVM) を利用しています (ただし、詳細情報の内「学歴」はサポートベクターマシンを利用しています)。
1,200 件の履歴書/職務経歴書を用いて提案手法であるカスケード式と、それから階層構造を前提としないフラットな方式を比較したところ、カスケード式において適合率に大きな改善が見られたそうです。

情報抽出に CRF を用いた採用担当者向けの検索システム (2010)

Singh, Amit, et al. "PROSPECT: a system for screening candidates for recruitment." Proceedings of the 19th ACM international conference on Information and knowledge management. 2010.

この研究では PROSPECT と呼ばれる、採用担当者が履歴書/職務経歴書を用いて候補者をスクリーニングするプロセスを効率化するシステムを提案しています。
このシステムでは採用担当者が求人情報を指定すると、これに類似する履歴書/職務経歴書の候補者のランキングが提示されます。採用担当者はここからさらに条件を追加することでランキングを調整することができるそうです。

求人情報と履歴書/職務経歴書の類似度を計算するために履歴書/職務経歴書からの情報抽出が必要となります。
この研究が行われていた当時、条件付き確率場 (CRF) がいくつかの現実的な問題のラベリングタスクにおいて隠れマルコフモデル (HMM) を凌ぐ成果を出している点に鑑みて、この研究では情報抽出モデルとして CRF を用いています。
CRF の特徴量としては、辞書特徴量 (予め用意した辞書の単語との Jaro–Winkler 距離)、視覚的特徴量 (例えば「見出し行は空行に続く」や「見出しは他の部分と異なるフォントが利用される」など)、固有表現特徴量 (例えば「期間」という固有表現が出現すればその文章は「プロジェクト情報」を示していることが多いなどの経験に基く)、テキスト特徴量 (「テキストは大文字ではじまっているか」など)、組合せ特徴量 (非線形性を表現するために、今の文の前後の文の特徴量を組み合わせる) などを用いています。

実験では 110 件の履歴書/職務経歴書に対しアノテーションを行ってデータを準備し、適合率と再現率で評価を行っています。
ランキングについても言語モデルの Kullback–Leibler 距離に基いたものや、Java 製の検索ライブラリである Apache Lucene の TF-IDF スコアリングモデル、また Apache Lucene の TF-IDF スコアリングモデルの出力に対しスキルに関して重み付けしたものなど種々の手法を実験し、結果 Lucene の TF-IDF スコアリングモデルをスキルで重み付けしたものが最も NDCG と Precision@k の二つの評価指標で良い成果を呈したとしています。
また、実際に Prospect を用いることで、スクリーニングの作業が 20 倍高速化したとしています。

辞書型の固有表現抽出器のための、辞書の教師なし自動生成 (2012)

Pawar, Sachin, Rajiv Srivastava, and Girish Keshav Palshikar. "Automatic gazette creation for named entity recognition and application to resume processing." Proceedings of the 5th ACM COMPUTE Conference: Intelligent & scalable system technologies. 2012.

履歴書/職務経歴書に対し固有表現抽出 (NER) による情報抽出を行う場合、速くて正確なアプローチの一つに (統計的なモデルではなく) 辞書を用いる方法があります。NER においてこの辞書は gazette などと呼ばれますが、この研究ではこの gazette を自動生成する教師なしアルゴリズムである BASILISK² を改良したアルゴリズムを提案しています。
BASILISK アルゴリズムでは少数の固有表現 (seed) と、固有表現 (またはその候補) が文章中で表れるパターンであるルール、それから文章の三つを入力とし、自動的に大量の固有表現を出力します。
各固有表現に対しルールを適用した結果得られる要素をアルゴリズムでは positive feature と呼びますが、この研究ではさらに、履歴書/職務経歴書のドメインに鑑みた negative feature とよばれる仕組みを導入しています。
negative feature では、例えば "Analyst" という単語は職務 (DESTINATION) にも担当 (ROLE) にも該当するが、履歴書/職務経歴書においては "Designation: Senior Software Engineer" のようにコロンの前に頻出するのは職務 (DESTINATION) であるというドメイン知識を、前述のルールを調整することで実現しています。
実験では固有表現のタイプとして ORG、EDUCATIONAL_INSTITUTE、DESIGNATION、DEGREE の四つを用い、4,000 件の履歴書/職務経歴書に対して各々のタイプで三つの固有表現を seed としてアルゴリズムを実行し、各タイプで最大 1,000 個の固有表現を生成し評価したところ、高い適合率が達成されたとしています。

オントロジーを利用した意味検索 (2013)

Senthil Kumaran, V., and A. Sankar. "Towards an automated system for intelligent screening of candidates for recruitment using ontology mapping (EXPERT)." International Journal of Metadata, Semantics and Ontologies 8.1 (2013): 56-64.

この研究では、候補者による履歴書/職務経歴書と採用担当者による求人情報に対しオントロジーマッピングを用いて候補者をスクリーニングする EXPERT というシステムを提案しています。
このシステムではまず履歴書/職務経歴書に対し NER などの技術を駆使してオントロジードキュメントへと変換します。
それから求人情報についても同様にオントロジードキュメントに変換し、両者を独自の類似関数でランク付けして履歴書/職務経歴書と求人情報のマッピングを実現しています。
求人情報についてはいわゆる「必須スキル」や「望ましいスキル」などの程度を表現するために、類似関数に重みを導入しており、検索時にはこの重みを調整することでより求人情報に合った候補者を検索できるとしています。
オンラインで手に入る凡そ 500 件の履歴書/職務経歴書に対し EXPERT を利用して検索を行い、高い適合率と再現率が確認できたとしています。

履歴書/職務経歴書における情報抽出 Pham Van et al, (2018)

Pham Van L, Ngoc Vu, S., & Van N, V “Study of Information Extraction in Resume.” Technical Report. Conference. (Unpublished). 2018.

この研究では、ベトナム語を対象とした複数形式の履歴書/職務経歴書から情報抽出するために、ルールベース手法とディープラーニング手法を適用するモデルを提案しています。
このモデルは、テキストセグメンテーション、ルールベースによる固有表現抽出、ディープラーニングによる固有表現抽出、テキストの正規化の4つのフェーズで構成されます。セグメンテーションでは、テキストの表現している情報の種類に応じてブロックに分割され、次の段階でに各ブロックの情報の種類に対応したルールを適用して情報を抽出します。3番目のフェーズではBi-LSTMとCNNを利用したNERをおこなっています。最終フェーズではにテキストを正規化します。実験では、固有表現抽出で81%を超える結果を達成したと報告されています。

CNN と CRF を使った履歴書/職務経歴書の解析 (2018)

Ayishathahira, C H et al. “Combination of Neural Networks and Conditional Random Fields for Efficient Resume Parsing.” 2018 International CET Conference on Control, Communication, and Computing (IC4) (2018): 388-393.

この研究では畳み込みニューラルネットワーク (CNN) と条件付き確率場 (CRF) を用いてレジュメを解析する手法を提案しています。
この手法では入力のレジュメを、予め定義したセグメント (「個人情報」や「学歴」など) に分割し、各セグメント毎に固有表現抽出を行った結果を JSON 形式で出力します。
前半のセグメントの分割では CNN と Bi-LSTM の二つを、後半の固有表現抽出では CRF と Bi-LSTM-CNN の二つを検証しています。
実験では Calpine Lab が保有する 2,000 件のレジュメを学習データとして用い、セクションへの分割では CNN が、固有表現抽出では CRF がより高い F 値を呈したとしています。

CNN シャムネットワークによる履歴書/職務経歴書と求人情報のマッチング (2018)

Maheshwary, Saket, and Hemant Misra. "Matching resumes to jobs via deep siamese network." Companion Proceedings of the The Web Conference 2018.

この研究では履歴書/職務経歴書を求人情報にマッチングすることで求職者に対し適切な求人をレコメンドするための、シャムネットワークを用いたマッチングのアルゴリズムを提案しています。
シャムネットワークは二つの畳み込みニューラルネットワーク (CNN) を損失関数である Contrastive loss (対象損失) 関数で結合することで構成されており、(一般的なシャムネットワークがそうであるように) 二つの CNNは重みを共有しています。履歴書/職務経歴書、及び求人情報は Doc2Vec を用いて埋め込み表現へと変換しています。
実験では 1,314 件の履歴書/職務経歴書と 3,809 の求人情報のペア、計 5,005,026 件をアノテートしてデータとして用いてこのシャムネットワークを学習し³、TF-IDF や BOW、Doc2Vec などを特徴量として cos 類似度で比較するベースラインと比較したところ、精度や F 値などでベースラインを大きく凌ぐ成果を呈したとしています。

おわりに

本記事では、履歴書/職務経歴書パージングに関する研究を時系列で紹介しました。

履歴書/職務経歴書パージングにおいては基本的に NLP 技術がもちいられていますが、過去は HMM や SVM などに始まり、最近では LSTM や CNN といった DNN を利用した手法へと変遷していて、他の NLP の分野とあまりかわらない印象を受けました。
R&D チームでは、今後も NLP 界隈や履歴書/職務経歴書パージング分野の技術を追いかけていきたいと思います。

注釈1: 「人材開発（HRD）・組織開発の歴史と変遷について」人材開発コラムより
注釈2: Thelen, Michael, and Ellen Riloff. "A bootstrapping method for learning semantic lexicons using extraction pattern contexts." Proceedings of the 2002 conference on empirical methods in natural language processing (EMNLP 2002). 2002. https://aclanthology.org/W02-1028.pdf
注釈3: シャムネットワークとは言え、履歴書/職務経歴書と求人情報という異なる入力を比較する必要があるためアノテーションをする必要がある

前の記事へ

一覧へ戻る

次の記事へ