ビジネスのための雑学知ったかぶり
ビジネスでも雑学は重要! 知っていると少しは役に立ったり、薀蓄を自慢できる話題をご紹介
プロフィール

RealWave

Author:RealWave
Twitterアカウントはrealwavebabaです。

馬場正博: 元IT屋で元ビジネスコンサルタント。今は「A Thinker(?)]というより横丁のご隠居さん。大手外資系のコンピューター会社で大規模システムの信頼性設計、技術戦略の策定、未来技術予測などを行う。転じたITソリューションの会社ではコンサルティング業務を中心に活動。コンサルティングで関係した業種、業務は多種多様。規模は零細から超大企業まで。進化論、宇宙論、心理学、IT、経営、歴史、経済と何でも語ります。

ご連絡はrealwaveconsulting@yahoo.co.jpまで

最近の記事

最近のコメント

最近のトラックバック

月別アーカイブ

カテゴリー

ブロとも申請フォーム

この人とブロともになる

お客様カウンター

Since 2009/10/21

ブログ内検索

RSSフィード

リンク

このブログをリンクに追加する

スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

PowersetはGoogleキラー?
Artificial_intelligence.jpg


Powersetというアメリカのベンチャー企業が最近注目を集めています。Powersetはまだ製品を送り出してはいないのですが、自然言語で検索できる機能を提供してGoogleを打倒するという振れ込みで、昨年末には1,250万ドルの資金をベンチャーキャピタルから集めることに成功しました。

Powersetによると、現在のGoogleの検索エンジンは前置詞や冠詞などありふれた言葉はストップワードといって検索に使用しません(これは本当です)。そのためbooks for children、books by children、books about childrenの区別ができないことになります。Googleの検索エンジンは「子供のための本」か「子供が書いた本」か「子供のことを書いた本」の区別はせずに、
books とchildrenの二つの言葉で検索し、区別は検索したユーザーがしなくてはいけません。

この話はPowersetについて書かれた記事では必ずと言っていいほど例として挙げられているのですが、実際にbooks for childrenとGoogleで入力するとBFCという子供向けの書籍を紹介するサイトが出てきますし、books by childrenと入力するとMyiBooks.org and BooksByChildren.comという子供の書いた本を集めたサイトがでてきます。

こんな簡単なことをPowersetも取材した記者も確かめなかったのは、いささか不思議ですが、Googleがいつもこの例を挙げられるので対抗策を立てたのかもしれません。もっともbooks about childrenの方は、どんぴしゃりのサイトは検索されず、子供のことを書いた本が上位に並ぶということはありません。

自然言語による検索では「シスコ社がもっとも最近買収した10社はどこですか?」とか「六本木のイタリアンレストランで一人1万円以下で食べられるところは?」とか、聞きたいことを素直に入力すると、自然言語検索エンジンが意味的な解釈をして検索する機能の実現を目指します。

コンピューターと自然な言葉で会話したいという要求は今に始まったものではなく、コンピューターに人間的な知能を与える人工知能という分野ができてからずっとありました。昔はコンピューターを使うといえばプログラムを書くしかなく、プログラムは専門家以外には難しいものでしたから、普通にしゃべった言葉でコンピューターが使えれば素晴らしいと多くの人が考えたのです。

しかし、コンピューターに人間と同じような会話能力を持たせるのはあまりにも難しく、プログラムを書かずに自然言語でコンピューターを使うことは事実上不可能でした。しかしプログラミングではなく、データーを検索することなら自然語でも何とかなるのではないだろうか、ということで多くの研究が行われました。確かに質問で使われる言葉が「xx以上」「xxxの中で」「上位10個」などのようなものなら、沢山の例をコンピューターに覚えさせれば何とかなりそうです。

ところが、実際は用途を限定しても自然言語による検索は簡単ではありませんでした。自然言語はプログラムのような厳密な規則のもとで使われることはなく、曖昧だったり、不完全だったり、突飛だったりと処理できないものがいくらでも出てきて、「実用化」といえる段階には容易に達することができなかったのです。
PowersetTeam.jpg
Powersetの経営陣

自然言語によるコンピューターとの会話はデモンストレーションではかなり劇的な性能を発揮します。つまり、自然言語を解釈するプログラムを特定の質問向けにチューニングしていれば、一見コンピューターが人間の言葉を理解しているように見せかけるのは難しくありません。

Powersetは一部の人にNDA(Non Disclosure Agreement:機密保持契約)を結んでデモを見せています。見せられた人の多くはひどく感心していますが、デモはPowerset側の人間が入力するようです。これでは本当の実用性はわかりません。

Powersetの商売の邪魔をする気はないので、自然語検索一般について述べようと思いますが、自然語検索エンジンの開発はほとんど「いかに自然言語の質問を解釈するか」ということに努力を注いでいます。

しかし、検索する側からいれば、「マドンナのCDで2000年以降に発売されたものは何ですか」と入力せず、「マドンナ CD」とGoogleで入力してマドンナの作品一覧のサイトにいければ実用上は十分です。ほとんどの検索の入力語数は1語か2語、せいぜい3語です。「books for (by, about) children」のような例もありますが、3語程度では自然言語で解釈するといっても大した意味はないでしょう。

それでも、自然言語で検索できれば、現在のように試行錯誤をしなくても目的の結果を早く得ることができると思う人はいるかもしれません。ところが実際にこのようなことを実現するためには検索する文章を自然言語のままで理解できるだけでは全く不十分です。

「マドンナのCDで2000年以降に発売されたものは何ですか」という検索に戻ると、望みどおりの検索結果を探そうとすると、マドンナのCDについて書いてあるサイトや文章を検索して、その中で作品の発表年を見つけなくてはいけません。このためには検索の文章が自然語として理解できるだけでなく、検索対象の文章も自然言語として理解できなくてはいけません。

検索用に入力された文章は自然言語といってもそれほど長くないでしょうし、そもそも何か検索したいという目的が最初からわかっています。けれども探されるほうの情報はどのような形式か、どこに何が書いてあるか見当もつきません。そんな文章を自然語として検索条件にあう部分を探り出すなどということが容易にできるとは到底思えません。

一昔前に自然言語で情報検索をしようとしたときは、検索用の文章は自然語でも、検索されるデーターは、顧客ファイルとか、営業店別売上げファイルとか固定的なフォーマットのものでした。これなら「昨年A営業所で、売上げ上位の顧客10社をリストアップしなさい」と打ち込めば、質問の解釈さえ間違えなければ答えは出ます。

インターネットの検索の世界では検索文章が理解できただけでは、作業は1%も終了していません。その1%でさえ、デモ用にチューナップされていなければ、なかなか使い物にならないのです。

検索対象の文章を処理して、インデックスを作成する作業はGoogleも行っています。そのためにGoogleは自然言語の専門家を大量に雇っています。また、Googleは自然言語の専門家だけではなく、インターネットのサイトをなめまわして、インデックスを作り上げるために、数十万台のサーバーを連結しています。それでも、Googleでは中身の意味に入り込んだ検索はほとんどできません。

自然言語で検索する機能を提供しようとする試みは、入り口の検索文章の理解でつまづき、そこを乗り越えたとしても膨大なインターネットの中にある文章を自然言語として理解するという全く克服不可能な壁にぶつかってしまうでしょう。これなら永久機関を作るほうがまだ簡単に見えるくらいです。

Powersetが私の予想に反して、実用的な自然言語検索の機能を提供できれば大したものですが、まずそんなことは起きないでしょう。そんな不可能な(としか考えられない)ことに挑戦するより検索機能を強化する道はイメージ検索(これもすごく難しいとは思いますが)などいくらでもあるでしょう。少なくともGoogleが最後の検索エンジンになると決まったわけでは全くありません。

とは言ってもPowersetも新しい技術的可能性に挑戦することでベンチャーキャピタルから資金を集め、成功に向けて邁進しています。日本のITベンチャーの多くが、内実は体育会系のノリで特に独創性もないSEOなどを売り歩いているよりは、ずっとましなのかもしれません。こんな「アメリカは進んでいる、しかるに日本は・・・」式の言い方はあまりしたくはないのですが。
talikingcomputa5.gif

スポンサーサイト

この記事に対するコメント

この記事に対するコメントの投稿














管理者にだけ表示を許可する


この記事に対するトラックバック
トラックバックURL
→http://realwave.blog70.fc2.com/tb.php/102-68396cb3
この記事にトラックバックする(FC2ブログユーザー)

SEO対策セミナー・コンサルティング・塾

本物のSEO対策!3億2100万件中1位表示の実績!会員制SEOサポート塾が遂に開講! SEO対策セミナー・コンサルティング・塾【2007/03/19 00:50】

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。