読書日記人気ランキング


現在の私の仕事は自然言語技術を用いたアプリケーションソフトウェアのマーケティング・販売・導入支援にありますが、自然言語技術を理解するには、技術だけでなく、言語学の理解や洞察が不可欠だと痛感しています。


この数年来、人工知能ブームが続きましたが、ガートナーが先進テクノロジのハイプサイクル2018年版で述べているように、人工知能関連技術は過度な期待期から幻滅期に差し掛かろうとしてします。自然言語技術に関しても、表層的な期待が先行してしまったと言わざるを得ず、言語学への洞察を欠いたものが少なくなりません。期待先行期は終了し、地に足のついた普及活動はこれからと考えており、ガートナーのハイプサイクルはそれを示唆しています。


自然言語技術に対する洞察を深めるために、これまでも今井むつみ氏の『ことばの発達の謎を解く』『脳の意識 機械の意識 - 脳神経科学の挑戦』などを読んできましたが、ガチ言語学の本は読んでいませんでした。専門領域になるとどうしても敷居が高くなってしまうからです。その中で「入門」と位置付けた本書に出会えたのは幸いです。


著者の斎藤純男氏(1958年~)は、東京外国語大学でモンゴル語学、言語学、音声学を学び、本書執筆時点の2010年時点、東京学芸大学留学センターで日本語を教えていました。


まえがきから、本書は「簡略な概説で多くの分野をカバーし、全体を見渡せるようにした本」としており、東京外国語大学(2004-2005年度)、國學院大學(2008-2009年度)の著者の講義ノートが元となっています。分かり易くて包括的・体系的であり、『言語学入門』というタイトルに相応しく、現在の自然言語技術の限界点がどこにあるか、余すことなく理解することができました。


<目次>

本書が包括的・体系的である点は、目次の構成を見れば明らかです。

  • 言語学とは
  • SECTION01 構造(音声・音韻)
    • CHAPTER01 音声学と音韻論
  • SECTION02 構造(文法)
    • CHAPTER02 形態論
    • CHAPTER03 統語論
    • CHAPTER04 文章・談話
  • SECTION03 意味
    • CHAPTER05 意味論
    • CHAPTER06 語用論
  • SECTION04 変化
    • CHAPTER07 歴史言語学
    • CHAPTER08 比較言語学
    • CHAPTER09 言語地理学
  • SECTION05 変異
    • CHAPTER10 社会言語学
  • SECTION06 記録
    • CHAPTER11 文字論
  • 言語研究の歴史
  • COLUMN


言語学の基礎体系


現在の自然言語技術の限界


読書日記人気ランキング


自然言語に携わると、人間は意味を理解できるのにコンピュータは意味を理解できない局面に多々直面します。文を構成する一つ一つの単語の意味が分かっても、必ずしも文全体の意味が分かることには繋がりません(意味論)。文章を構成する一つ一つの文の意味が分かっても、必ずしも文章全体の意味が分かることには繋がりません(語用論)。これは「部分の性質の単純な総和にとどまらない性質が、全体として現れる」とした「創発」そのものです。


  • 部分:単語<文<文章:全体
  • 意味論:単語と文の関係
  • 語用論:文と文章の関係


意味論を実装したソフトウェアは多々ありますが、語用論を実装したソフトウェアを私は知りません。ご存知の方がおられましたら、ご紹介いただけると幸いです。


さて、本書から、人間には理解できてもコンピュータには理解できない文例を抜き出してみます。


語順だけでは修飾関係(係り受け構造)が決まらない

(本書p50より)

  • たのしいケーキづくり
  • おいしいケーキづくり


前者の「たのしい」が修飾するのは「ケーキ」ではなく「ケーキづくり」ですが、後者の「おいしい」が修飾するのは「ケーキ」です。形容詞や副詞が何を修飾しているかは、小学校高学年から中学1年ぐらいの間に習います。形容詞+名詞+名詞と、品詞の並び順が一緒であるのにもかかわらず、しかも後半の2つの単語が同じであるのにもかかわらず、この二文は修飾構造(言語学では係り受け構造と呼ぶ)が異なります。


そのような例がこの二文だけであればコンピュータに覚えこませれば済みますが、他にも文例はたくさんあるでしょうし、これからも新たな組合せが出てくるでしょう。人間の意味理解にコンピュータが追い付くのはなかなか大変そうです。


次の句も、品詞の並び順が一緒なのに係り受け構造が異なる例です。


  • 先月払った電気代
  • 先月使った電気代


前者の「払った」のは「電気代」ですが、後者の「使った」のは「電気代」ではなく「電気」です。


日本語の助詞「は」は主語とは限らない

(本書p112より)

日本語の助詞「が」は主語ですが、「は」は主語にもなりますが、主語であるとは限りません。翻訳をされたことのある方はよくご存知かと思いますが、「が」を使うのか「は」を使うのかによって、意味が変わってしまうことがあります。


  • 犯人がつかまったとき、信じられない気持ちだった。
  • 犯人はつかまったとき、信じられない気持ちだった。


「信じられない気持ちだった」の主語は、前者では明示されておらず、これを英訳すると、主語は推定「I」です。一方、後者の主語は推定「犯人」です。断定できずに推定とせざるを得ないのは、前後の文を見ないと判断がつかないからです。後述する「語用論」の典型的な問題です。


  • 漱石はこの書斎で『坊っちゃん』を書いた。
  • この書斎では漱石が『坊っちゃん』を書いた。
  • 『坊っちゃん』は漱石がこの書斎で書いた。


この三文とも「書いた」の主語は「漱石」ですが、「この書斎で」や「『坊ちゃん』」は主語ではありません。意味を強調する時に「は」を使います。一文目は「漱石」、二文目は「この書斎で」、三文目は「『坊ちゃん』」を強調しています。


句・文のレベルの多義性

一つの単語、句、文が複数の意味を持ってしまう場合があり、これを多義性(polysemy)と呼びます。自然言語処理にて、単語レベルの多義性は辞書の拡充により解決しますが、句・文のレベルは解決できません。


  • 太郎と花子のお母さん
    お母さんは、太郎と花子の二人のお母さんなのか、花子だけのお母さんなのか。前者はこの句全体で「お母さん」一人を指し、後者は「太郎」と「お母さん」の二人を指す。(本書p124)

  • 岡山と広島に行く
    これを英訳するとgo to Okayama and Hirosimaだけでなく、go to Hiroshima with Okayamaも成り立つ。前者では岡山と広島の両方が地名で「と」はANDを意味するのに対し、後者では岡山は人名、広島は地名で「と」はWITHを意味する。(『ロボットは東大に入れるか』より

  • シューベルト作曲『美しい水車小屋の乙女』
    「美しい」のは「乙女」なのか「水車小屋」なのかが分からない。原題のドイツ語は複数の単語を繋げて一つの単語にしてしまう性格を持っており、「水車小屋の乙女」で一つの単語になっていることから、「美しい」のは「乙女」と分かるが、分かち書きのない日本語では判断がつかない。もし意訳するなら「水車小屋の美しい乙女」とすべきかもしれない。(構文解析 - Wikipedia


コンテクスト依存(語用論)

一つの文の中を論ずるのが「意味論(semantics)」なのに対し、複数の文からのコンテクストを論ずるのが「語用論(pragmatics)」です。語用論になると、現在の自然言語技術ではほとんどカバーできていません(Googleが語用論を実装しているかどうかは厳密には知りませんが、Googleがユーザのプロファイリング情報を基に提示する広告精度はまだまだ単純なもので、語用論を実装していないか、実装していたとしても実用段階にほど遠いのは明らかです。)


単純回答(コンテクスト非依存)

(本書p135より)

  • A「今日の天気は?」
  • B「午後から雨らしいよ」


英語で言えば「how」の質問に対し「rainy」と回答。他の回答例は「fine」「cloudy」「snowy」「windy」など。


含意を含む(コンテクスト依存)

(本書p135-136より)

  • A「いってきま~す。」
  • B「午後から雨らしいよ」


「傘を持っていったほうがいいよ。」という含意を含む。


  • A「今日は買い物に行かなくちゃ。」
  • B「午後から雨らしいよ」


「買い物は午前中に行ったほうがいいよ。」という含意を含む。


ポライトネス(語用論)

(本書p142-143より)

望ましい人間関係を維持するために、自分の体面だけでなく相手の体面も保とうとするため、直接的ではなく間接的な表現を用いる。


  • 直接的表現 :「今何時ですか」
  • ポライトネス:「あのう、今日ちょっと時計を忘れて来ちゃったんですが、・・・」


  • 直接的表現 :「あしたまでに提出してください」
  • ポライトネス:「あしたまでに提出していただけるとありがたいんですが・・・」


語用論から見えた人工知能(自然言語技術)の限界


昨年、国立情報学研究所の新井紀子教授の『AI vs. 教科書が読めない子どもたち』が流行りましたが、端的に言えば、語用論レベルを理解できない人が相当割合いることを指しているように思います。


裏を返すと、人間でさえ理解できない言葉の使い方を人工知能が理解するはずもありませんし、たとえ人工知能が人間以上に理解できたとしても、人工知能が出した答えを人間のほうが理解できないことになります。果たして、人間が理解できない答えに意味があるのでしょうか?


204X年に人工知能が人間の知性を凌駕するシンギュラリティが訪れるとしていますが、人間が人間のことを分からないのに、その人間を超えるというのは一体何を意味するのでしょうか?人間側が解決できていない語用論問題を、人工知能が勝手に解釈してあらゆる矛盾問題を解決する、なんていうことがあるのでしょうか?


人工知能に置き換わる職業

昨今、人工知能に置き換わる職業論が盛んですが、その境界線は、含意やポライトネスなどの語用論レベルの意味理解を必要としているか否かにあるように思います。株式売買処理には語用論レベルの意味理解は不要だったため、早々にインターネット取引に移行しました。


接客業はどうでしょうか?果たして、接客ロボットが含意やポライトネスまでも理解してくれるのでしょうか?ある程度パターン処理で解決するのかもしれませんが、イレギュラーな事態が生じたら、人間による接客でもトラブルになるのに、ロボットはどうするんでしょうね。客は怒りたくても、ロボット相手に怒っても・・・


読書日記人気ランキング


関連書籍

『ことばの発達の謎を解く』


『脳の意識 機械の意識 - 脳神経科学の挑戦』


『ロボットは東大に入れるか』


『AI vs. 教科書が読めない子どもたち』



『生物から見た世界』


『言語学入門』で、「形式意味論(formal semantics)」と「認知意味論(cognitive semantics)」の二つの意味論を提示している。前者は言語の存在以前に世界は存在するという考え方で、後者は言語を含む認知を通じて世界は存在する、裏を返せば、認知がなければ世界は存在しないという考え方。その原点に立ち返らせてくれるのが『生物から見た世界』と言える。昆虫には昆虫が認知する世界があり、その世界は人間が認知する世界とは似ても似つかぬ世界です。



『〈インターネット〉の次に来るもの―未来を決める12の法則』




↓↓参考になったらクリック願います↓↓
ブログランキング・にほんブログ村へ
にほんブログ村