求人広告代理店向けに営業の効率化をサポートする事業や、学生と企業とをつなぐ就職教育などを行っています。近年最も注力している事業であるSky Scraper Project は2017年に経済産業省より「異分野連携新事業分野開拓計画」の法認定を受け、Web上の主要求人媒体から求人データを取得し、それを元に各サービスを展開しています。
AI受託開発
お客様 × データサイエンティストインタビュー
Sky Scraper Projectとは?
今回お話を伺ったのは株式会社Credo Ship.(クレドシップ)のエンジニア松原様と、担当させて頂いた当社ROXのデータサイエンティスト杉本です。
―――まずは、今回のプロジェクトSky Scraper Projectについて改めてお話しを伺えますか?
松原様
「Sky Scraper Projectは、web上の求人サイト(タウンワーク・アイデム・バイトル等)から1日に10万件以上新規掲載される求人情報を集め、有効かつ効率的に求人情報を活用するためにビッグデータの構築システムを開発したり、それらのデータベースを用いたアプリ・サービスなどを開発するプロジェクトです。」
「データを用いたサービスとして、求人広告代理店向けの営業支援アプリ『シエスタ』 を開発しリリース致しました。現在は『求人ビッグデータをどのように生かしていくか?』に取り組むエンジニアが多く事業に携わっています。」
ROXは2年に渡りクレドシップ様と共に「求人ビッグデータのAI解析」に取り組ませて頂きました。
膨大で雑多な求人情報から必要なデータを正しく抜き出すために
松原様
「例えば地域別に給与の平均などを見るために、『給与の数値を抜きだす』というのは簡単に聞こえるのですが、もともと求人情報というのは『コトバ』で書かれており、給与金額の記述方法一つをとってもバラエティーがあります。」
「例えば、時給・月給・日給で書かれているもの。 〇〇円~〇〇円と範囲が設けられていたり、金額に『円』がついていたりいなかったり。単純にデータを抜くだけではなく文書の解析も必要となります。」
ROX:杉本
「大元の求人情報は人間が読解すれば理解できるのですが、PCが正しく必要な情報を抽出するためには様々なルールを作っていく必要があります。」
「頂いた 求人データのCSVデータを目視で確認し、泥臭い作業でルールを作り色々な情報に当てはめ、必要な情報を正しく抽出できるようにプログラムを作っていきました。」
オンライン会議ツールでの打ち合わせについて
―――打ち合わせはオンライン会議ツールを使って行ったそうですが、直接顔を合わせずに進めることでの支障などはありませんでしたか?
松原様
「細かい指示などを出す場合にはこういったオンラインだけでの打ち合わせは難しかったかもしれませんが、今回の場合は細かい指示をするというよりも、最初に大きな目標を決め、1ヶ月に1回程度オンラインミーティングを行い経過の確認をしながら進めていきましたので、形式がオンラインであることで困ることは特にありませんでした。」
ROX:杉本
「僕も同じで、大きな方針を共有して、そこさえずれていなければ、ある程度自由度のある形で作らせて頂き、月に1回方向性が間違っていないか打ち合わせで確認をしながら進められましたので、特にオンライン形式での打ち合わせでも違和感はありませんでした。」
データの精度を高めていく
ROX:杉本
「松原さんはベテランのエンジニアでシステム開発に明るく、こちらから多くのご説明をせずとも進行できましたので、その点とてもスムーズに開発がすすめられました。」
松原様
「杉本さんは2年間のプロジェクトの内、途中から参加していただきました。杉本さんが参加する前の前期と、入ってからの後期ではハッキリと2つに分かれています。」
「前期ではそれなりのものができたのですが、今一つ精度が足りず、またそこから先に精度高めることが難しいような状況でした。杉本さんが参加してプログラム・やり方を見直して頂き精度が高まりました。」
「前期では、もとのweb上で掲載されているバラエティーに富んだ『コトバ』で書かれた給与情報などを、必要な状態で抽出するためにキチンとした構文解析、言語解析を進めようという方向性だったのですが、杉本さんから『意味ではなくパターンで抽出した方がよいのではないか?』『よりシンプルなやり方で進めたらどうか?』という提案がありそこから精度が上がっていきました。」
「結果論になりますが、後から見てみると、いくら求人情報の書き方にバラエティーがあるなと思っても、実際は案外単純なケースが多く、複雑なケースの方が少ないのにも関わらず頭に難しいものが印象として残ってしまう。単純なケースをキチンと処理できればそれなりに意味のあるデータを抽出できるということがわかり、そういう方向で進められたことが収穫でした。」
ROX:杉本
「有難うございます。途中からプロジェクトに参加させて頂いて、代表の中川からも進め方や現状の課題を共有したうえで、『仕組み自体はあるが、基本的にこうしたらよいのではないか?と思う形で進めていいよ。』と言われていましたので、 まずは既存のプログラムを見て問題点を洗い出し、こういったところを改善したらよいのでは?というところから着手していきました。」
「最初にコードを見たときに抽出の仕方について、もうちょっとシンプルにしたらよいのではないかと思いました。検証を重ね『その方向性である程度精度よくできそうだ』ということがわかってきたのでキーワードベースで進めていき、松原さん・中川とも進捗を共有しながら進めていきました。」
「目的を達成するために一番シンプルな方法を考え、今回はそれが良い方向に進みました。」
構造化されたデータを提供し事業を拡大中
スクレイピングしたデータを構造化し、一定の精度に到達。ノイズが少ない給与情報がシンプルな記載ケースならば、抽出精度99.9%の正確さで、必要な情報の抽出に成功いたしました。その後クレドシップ様に精度のご確認をいただき今月(2021.3)で一旦リリースさせて頂きました。
―――構造化されたデータはどのような形で運用されていますか?
松原様
「数値として扱えるようになったデータは、 地域別の給与の値を平均化したり、給与データを分布化してお客様にご提供できるようになりました。」
「具体的な活用シーンとしては、”給与設定をする際の判断材料”や、営業する側としては、”こういう給与設定で求人を出せば応募が増えるのではないかといった提案”、また”競合他社との比較”などにデータを活用しています。
「今までは求人広告代理店が主なターゲットでしたが、最近は採用や人材派遣の業界などHR業界全般に募集情報データを提供し事業を広げています。」
ニーズに合わせて更なるデータ分析を
―――今後の展望や課題などがありましたらお聞かせください
松原様
「1日約10万件とデータ数がとても多いことが特徴で、それを整理するところや、営業的な立場で必要なデータと、システムとして蓄積しているデータを調整するのが難しく、お客さんのニーズに合わせたデータを出していくのが大変なところです。」
「プロジェクト内で同時平行的に進めているのが、給与のデータと合わせて必要となってくる業種・職種の分析です。給与データと同じように業種や職種も書き方が統一されておらず、そのあたりの分析も進行しています。」
―――今後ますますご進展がありそうですね。
ROX:杉本
「最終的に無事にお納めすることができてよかったです。松原さんの方では補助金事業などのクロージングはスムーズにできましたか?」
松原様
「 資料などもよくまとめて頂いたので、補助金事業としてクローズすることができ、監修いただいた先生にもご説明がしっかりとできました。」
ROX:杉本
「それは良かったです」
聞き手・編集:ROX飯塚