本ページはアフィリエイトプログラムによる収益を得ています
- Amazon.co.jp ・電子書籍
感想・レビュー・書評
-
最終的には二〇〇九年の夏に、われわれのグループに加わっていたユーアン・シェンがこれらの手法とソフトウェア技術者としての自らの才能を組み合わせ、グーグル・ブックスのビッグデータの「汚れ」を取り除くためのアルゴリズムを完成させた
特許の特定技術の検索もノイズを綺麗に取れないか、日々模索しています。イメージは以下の通りです。まずは適当に数件見積もる、数件の共通するIPCなどのタームを抽出する、タームで検索する、検索して出てきた特許から特定技術に関連する用語を抜き出す、用語とタームで検索する。
どれが難しいかって用語の抽出です。テキストマイニングの知識があれば、上手く抽出できるのでしょうか。そもそも、こんなの自分だけでやり切れるものなのでしょうか。で結局、自分で作った類語辞典とタームリストの掛け算で検索しています。
上記の検索ではノイズがそれなりに見受けられます。ただ、ノイズ数の妥当性も定かではありません。100件ならいいのか、10件ならいいのか。
こんな感じで手探りの日々です。詳細をみるコメント0件をすべて表示
全1件中 1 - 1件を表示