chevron_left

メインカテゴリーを選択しなおす

cancel
藤倉崇晃のなぜつくったし。 https://takaakiwhy.blogspot.com/

かけだしプログラマーの創作活動ブログ!

主にレコメンドエンジンをフリー(オープンソース)で配布します。 アルゴリズムの研究報告なども行う予定!

たかふじ
フォロー
住所
桜区
出身
足利市
ブログ村参加

2015/09/15

arrow_drop_down
  • 形態素解析器のいらないキーワード抽出ツール(完成!?)

    今日で、ほぼ完成しました。 精度も速度もだいぶ上がりました。 満足のいくものができたので、 そろそろベクター様に投稿しようと思います。 スクリプトはベクター様で公開されるまで非公開にします。 苦節一週間。 長かったなぁ。 明後日のゼミが自分の番なので い...

  • 形態素解析器のいらないキーワード抽出ツール(4)

    今日もこれです。 過去記事のスクリプトは削除しました。 だいぶ速くなり、10000字の文書を1~2分で処理できるようになりました。 (ある文字列のスコア) = (出現回数)×(文字列の長さ) と定め、 キーワードの集合から(文字列1)と(文字列2)を取り出し...

  • 形態素解析器のいらないキーワード抽出ツール(3)

    今日も昨日に引き続き、キーワード抽出ツールを作りました。 前回、「機種依存文字」によって解析が止まると書きましたが、 それは間違いで、正しくは、「 特殊文字 」でした。 今回のソースコードでは特殊文字は削除します。 あとはアルゴリズムをいじって精度が少し...

  • 形態素解析器のいらないキーワード抽出ツール(2)

    今日は昨日に引き続き、キーワード抽出ツールを作りました。 今日のは完全に自動です。 面倒臭さ軽減! 速度も上昇し、ミスも減ったかな・・・ 1000字くらいの記事なら、サクっと解析できます。 しかし「★」とか機種依存文字(?)が文章中にあると、解析が終わらなくなる...

  • 形態素解析器のいらないキーワード抽出ツール

    今作っているものです。 というか一旦は完成しました。 しかしめっちゃ遅いから、まだベクター様で公開できる段階じゃないんです。 あとたまにミスる。 それでなぜ形態素解析器のいらないツールにしたかったか? なぜなら自分が使うとき面倒だったから...

  • HTML::TagParserというPerlモジュールでスパイダリングしてみたよ!

    今日は、スパイダリングのスクリプトを作成しました。 起点となるページ(デフォルトでYahoo!ニュース)に飛んで、 同じドメインのページをスパイダリングします。 たぶん幅優先探索になっていると思われます。 とりあえず pタグの innerText を抜きまくって...

  • 教師なし形態素解析

    辞書なしで形態素解析できないか悩んでいたら、下記を発見しました。 『ベイズ階層言語モデルによる 教師なし形態素解析』 NTTコミュニケーション科学基礎研究所 持橋大地 http://chasen.org/~daiti-m/paper/nl190segment-...

  • 有名女優さん同士の類似度

    今日はレコメンド関連にテーマを戻して活動しました。 上表は有名な日本の女優さん7人の類似度を表しています。 どのように計算したかといいますと、 「女優A」でGoogle検索 → ヒット件数を x とする 「女優B」でGoogle検索 → ヒット件...

  • デマの形態素解析

    今日は、とあるクラウドソーシングサイトで20字程度のデマを考えて欲しいという依頼をした。 そして計530件のデマが集まった! 集まったデマはこんな感じ↓ iphone6sを最後に、Appleはスマートフォン事業から撤退することになった。 小さなつむじ風の中に入...

  • お彼岸

    今日は母の実家に行って、お墓参りをしてきました。 お墓は山の斜面にあり、高齢の祖母はもうお墓参りできないので、 私が代わりにお墓参りしました。 先日の台風のせいか、お墓の周りが荒れていて、 祖母からは「掃除はしなくていいよ」と言われていましたが、 簡単に片付け...

  • Twitterのデマ検知器を作ろう!

    Twitterから情報を抜くにはどうすればいいか試行錯誤する一日でした。 Perlの場合、下記URL先の説明が一番丁寧に感じました。 http://qiita.com/nmkwnryk/items/e20ffb299ac55d7bd3d2 そんな感じでTwitter...

  • 「今夜はカレーよ!」 ⇒ 夜遊び自重

    今後の課題まとめ 1. スパイダリングの勉強をする。 2. スパイダリングのPerlスクリプトを作って、 recommendWithCosSimilar  と合体させる。 3. 欲しい情報だけ出力してくれるスパイダリングツール爆誕! 夢で終わらな...

  • 岡崎図書館事件なるものを知る

    マスコミ報道だけでは分からない岡崎図書館事件 スクレイピングで面白いことできないかなぁ~ と思って色々調べていたら、 逮捕された事例があると知りビックリです。 ツイッターをスクレイピングして、 不特定多数のユーザーのお気に入りツイートリ...

  • JSONファイルをCSVに変換するウェブサイト

    見つけました! https://json-csv.com/ 容量1Mまでが無料で、課金すれば容量50Mまで、できるようです。 うーん(。-_-。) いや、 recommendWithCosSimilar がJSONファイルを出力する仕様なんですが、 csv...

  • PerlスクリプトをPARでexe化するのがどうしてもできなかったので・・・

    ActivePerlをアンインストールして、 Strawberry Perl(5.16.3001)をインストールして使ったら、 あっさりできました。 それまでは、どうも PAR::Packer のインストールが出来ていなかった模様。 PAR::Packer のイ...

  • スタンドアローンレコメンドエンジン

    一度つくってみたかった。 スタンドアローンでコサイン類似度を計算して、 オススメの商品を出力するソフトです。 recommendWithCosSImilar (スタンドアローンレコメンドエンジン) ダウンロードはこちらから!

arrow_drop_down

ブログリーダー」を活用して、たかふじさんをフォローしませんか?

ハンドル名
たかふじさん
ブログタイトル
藤倉崇晃のなぜつくったし。
フォロー
藤倉崇晃のなぜつくったし。

にほんブログ村 カテゴリー一覧

商用