Research Highlights 04

ポリマーデータの“辞書”を編み、 AIの思考の礎を築く


NIMSが公開している高分子データベース「PoLyInfo」。石井真史は、AIにデータの“意味”を理解させるため、データの「機械可読化」に取り組んできた。そして、圧倒的な広がりを誇るバイオ関連データベースと連携させることにより、地球規模の課題解決にも挑もうとしている。


ポリマーデータを文章化して
2500万文の辞書を作成

NIMSの「PoLyInfo」は、ポリマー材料の設計に必要とされるデータを学術文献から収集した一大データベースだ。ポリマーサンプルの数は、約17万にも及ぶ。さらに50万以上の物性ポイント(サンプルの特性)、サンプルの成形方法、測定条件、原料モノマー、重合方法なども相互に関連づけて公開。複雑で体系化が難しいとされるポリマー情報をこれほどまでに多数提供しているデータベースは世界的に類を見ない。

それほど充実したPoLyInfoだが、それをもとにAIがすぐさま新たなポリマーを思考できるかというと、そこには大きな隔たりがある。
「PoLyInfoに並ぶデータはAIにとっては単なる文字の羅列でしかなく、『ポリマー』『炭素』が何を指すかといった“常識”さえ持ち合わせていません。そのため、AIにPoLyInfoのデータが持つ“意味”を正しく理解させるためには、『ポリマーとは物質である』ことをはじめ、一つ一つ根気強く教えていく必要があるのです」(石井)

そこで石井が作成したのが、ポリマーに関する基本事項からPoLyInfoのデータまでを「主語・述語・目的語」の3語(トリプルと呼ぶ)で記述した“ポリマーの辞書”だ。

「国際的な規格に則って物事の概念や関係をツリー状に記述する『オントロジー』という作法に基づき、主語・述語・目的語の組み合わせをつくっていきました(図1)。これを活用して、できた文章の目的語を、さらに次の文章の主語にするというようにデータの構造化を進めることで、データベースはAIの“知識”と呼べるものになります。例えば、『日本の首都は東京である。東京の北には茨城がある。茨城の特産物はれんこんである』というように。このような構造化技術を『セマンティックウェブ』といい、その礎としてオントロジーが欠かせないのです」(石井)

図1 機械可読な知識表現の例
「主語・述語・目的語」の3語から成る、通称トリプルのイメージ。特に述語は言葉の関係性を示す役割として重要度が高く、国際規格で定められた用語に則って記述する。それにより、他領域のデータベースとの連携が可能になる。

このようにしてPoLyInfoのデータを「主語・述語・目的語」で記述していったところ、2500万もの文ができあがった。吉川英治の長編小説『三国志』全12巻が約4万5000文であることを考えると、それがいかに膨大な数であるかわかるだろう。

機械的な作業に見えるが、その機械可読化は容易ではなかった。PoLyInfoではデータを学術文献から収集しているのだが、人によって言葉の選び方や書き方はさまざま。機械可読化ではそのような個性が邪魔になってしまうので、ルールに則った言葉、書き方になるよう、ツールを駆使して国際的規格に当てはめていった。

視覚に障がいを持つ石井。研究でも日常生活でも、点字ディスプレイが手放せない。パソコンとつなげば、画面上の文字情報に応じて点字が隆起。データの読み書きをしたり、会議中のメモを点字で保存したりと大活躍。

1 2>