研究開発過去記事 - にほんブログ村

シリコンバレーベンチャーみたいに深い科学技術を事業化したいです。

「深い技術」をやっています

圏外	総合ランキング
圏外	ベンチャーブログ
圏外	科学ブログ
圏外	IT技術ブログ

本日のランキング詳細

TAK

フォロー

住所: 文京区

出身: 未設定

ブログ村参加: 2007/08/27

参加テーマ

過去記事

プロンプトから音楽生成 MusicLM

MusicLM: Generating Music From TextPresents MusicLM, a model for generating high-fidelity music from text. MusicLM generates music at 24 kHz that remains consistent over several minutes.proj: https://t.co/8vzBONkPe3abs: https://t.co/vzW01q7VpHdata: https:
2023/05/25 22:32
Python高速化コンパイラCodon

PythonでC／C++に匹敵する実行速度を実現米MITなどコンパイラ「Codon」開発https://t.co/3LeXsI8zKa pic.twitter.com/SFGg03JGK9— ITmedia NEWS (@itmedia_news) March 23, 2023 /bin/bash -c "$(curl -fsSL https://exaloop.io/install.sh)"これでインストール出来ま
2023/05/18 10:48
Google Apps ScriptでTwitter OAuth2.0認証

GAS からの場合、 Twitter API V2でOAuth2.0認証のやり方のように簡単にはいきません...上手く行かなかった所だけ、理由まで含めて書いておきます。OAuth2 ライブラリのスクリプトIDは 1B7FSrk5Zi6L1rSxxTDgDEUsPzlukDsi4KGuTMorsTQHhGBzBkMun4iDF です。OAuth1 の
2023/05/17 22:31
Cross Attention制御によるPrompt2Prompt画像編集

最近のtext to imageモデルは、プロンプトに沿った画像を生成する能力を持ちますが、この生成モデルでは画像編集は困難です。本研究ではプロンプトの編集で画像を操作する事について取り組みます...One finds new pseudo-words in the embedding space of a language mode
2023/05/10 21:44
学習データが枯渇する日：機械学習におけるデータスケーリング限界の分析

自然言語では2030～2040ぐらいには枯渇しそうとの事ですが高品質データはそれよりも圧倒的に早く、2027年にはかなり確実に枯渇するとの予測です。最近の言語モデルがデータ量依存なのであれば、今のままだと割と早く性能の限界が来ると...高品質データを作る作業をしたと
2023/05/03 17:27
Twitter API V2でOAuth2.0認証のやり方

まず、アカウント申請します。Developer Portal の画面で key,tokenが既にあるならば、おそらくregenerateになりますが、無い場合は、ボタンがgenerateのままになっていると思います。当然これらは作らなければなりません。............................
2023/04/26 21:25
会話モデルのHallucinationの起源についてデータセットかモデルか

データセットにも無責任な文例が多数存在するが、モデル自体も、それに基づいたHallucinationを増幅させる。しかし研究対象としたモデルが1世代ぐらい前（GPT-2等）なので、より新しい例えばchatGPT等のHallucinations等には正確には対応しないのでは...？大規模言語モ
2023/04/20 06:19
ChatExtract 会話型言語モデルとプロンプトエンジニアリングによる論文からのデータ抽出

ChatGPTで「論文から非常に正確なデータ抽出」できるとの報告https://t.co/uOLCvV2lnEウィスコンシン大学の研究者らによると、ChatGPTに適切なプロンプトを与えるだけで、論文から高精度なデータ抽出が実現できる。前提条件の入力は不要。他の会話型大規模言語モデルでも使
2023/04/13 22:15
Azure OpenAI Serviceで言語モデルを独自データで再学習の方法

2023/4/6時点で、Azure OpenAIではchatGPT（gpt-35-turbo）GPT-3（davinci,curie,babbage,ada）Codex（davinci,chshman）embedding（davinci,curie,babbage,ada）等が利用出来ます...独自データで言語モデルの再学習を試した人は現時点ではほとんどいないでしょうか？
2023/04/06 19:40
再現可能で強力な指示実行型モデル Alpaca

Instruction-following models are now ubiquitous, but API-only access limits research.Today, we’re releasing info on Alpaca (solely for research use), a small but capable 7B model based on LLaMA that often behaves like OpenAI’s text-davinci-003.Demo: htt
2023/03/30 10:08
大規模言語モデルは剽窃するか?

言語生成AIは文章を“盗作”しているのか？ 21万件の文章から米国の研究者らが分析https://t.co/BBXdgH7ysA pic.twitter.com/CxKfjm5NyH— ITmedia NEWS (@itmedia_news) February 21, 2023 Do Language Models Plagiarize?Jooyoung Lee, Jinghui Chen, Dongwon Lee Pen
2023/03/29 20:45
制御性を備えた音楽生成に関する Diffusion-LM

Diffusion-lm improves controllable text generation.Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto Stanford UniveristyarXiv preprint arXiv:2205.14217 (2022).再トレーニングなしで言語モデルを制御することは、自然
2023/03/22 21:46
AIアシスタントを使用したプログラマはより脆弱なコードを作成します

Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ— 新
2023/03/16 00:23
パフォーマンス、気分、伝搬に関して、丁寧、失礼ロボット励まし効果の比較

【褒めは伝搬する？】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
2023/03/14 22:15
GLAZE 画像生成拡散モデルによるスタイル模倣からアーティストを保護する

この研究面白いな.. 人の目には見えないノイズを画像に追加することで、Stable Diffusionなどのモデルでの学習、スタイルの模倣を困難に。アーティストのためのAdversarial examples的なもの!? GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models https:
2023/03/07 06:07
ランダムフォレスト,音象徴によるポケモン進化分類

ポケモンの名前をランダムフォレスト（機械学習）で分析した論文も出ました！https://t.co/BLoryPMoLS1月から飛ばしますねー（努力したのは去年ですが）。— Shigeto Kawahara@Keio (@PhoneticsKeio) January 6, 2023 Random forests, sound symbolism and Pokemon evoluti
2023/03/01 00:16
WaveNet , LSTM アプローチによる自動音楽生成

https://github.com/abhayp2204/Music-GeneratorこのプロジェクトはWaveNetとLSTMによる自動音楽生成に焦点を当てます。WaveNet の構造は、言語モデルに似ています。次の単語を予測する代わりに、音符とコードから次の音符を予測します。手順複数のMIDIファイルから
2023/02/23 18:42
リードシート生成条件付きseq2seqフレームワーク

Generating lead sheets with affect: A novel conditional seq2seq framework.Dimos Makris, Kat R. Agres, Dorien HerremansInternational Joint Conference on Neural Networks (IJCNN). IEEE, 2021.ディープニューラルネットワークによって自動作曲は進歩しましたが
2023/02/22 21:43
ChatGPT生成テキストを判別する機械学習モデルの判断基準

https://t.co/QiZj6TZjoTChatGPTが書いた文章かどうかを機械学習で判別する研究。ChatGPTの生成文書は感情ではなく経験を記述し、丁寧であり、詳細には入らず一般的な用語で表現する、という傾向があることを発見。 pic.twitter.com/EoOoxz7ldC— akira (@AkiraTOSEI) Februa
2023/02/16 00:06
gmailでアプリパスワードメール設定

以前から試していたのですが何故か上手くいかなかったので...まずgoogleアカウントのセキュリティから2段階認証を有効にします。そしてアプリパスワードを発行します。このアプリパスワードは、おそらく16桁固定です。そうしてからgmailアドレスと、このアプリパス
2023/02/12 09:09
Long-Context拡散モデルによるテキストから音楽への生成 Mousai

And we have another text-to-music paper... Mousai proposes a cascading latent diffusion approach that generates minutes of stereo audio at 48 kHz and allows real-time inference on one GPU.abs: https://t.co/bhkuac97Q1demo: https://t.co/eK16ExJwEXcode: http
2023/02/07 06:43
ChatGPT生成概要を剽窃検出器と人間の査読者で検証

対話AI「ChatGPT」が書いた論文の要旨を研究者は見分けることができないという報告https://t.co/t9pMA2DSHp— GIGAZINE(ギガジン) (@gigazine) January 15, 2023 Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intellige
2023/02/01 21:45
スペクトログラム拡散によるマルチ楽器音楽合成

Diffusion for music synthesis!We trained a “notes2audio” pipeline to synthesize audio from multi-instrument MIDI notes.Listen ??: https://t.co/keM3PgK0bCPlay ??: https://t.co/KeuRwZfJAhCode ?????: https://t.co/mczOUi8r6bRead ?? : https://t.co/hSFZePbLrc
2023/01/31 21:14
自然言語生成における Hallucination 幻覚の調査

チャットボットAIの返答は全て「幻覚」、最大の難関はハルシ ... - ITpro https://t.co/2xVLrAkNDf— 人工知能・機械学習ニュース [公式] (@A_I_News) January 5, 2023 Hallucination の訳として、日本語の幻覚と言う言葉には正確に一致しないと思うんです。 Hallucinatio
2023/01/24 13:58
単一画像生成 DropTheGAN の実装

DropTheGANで何が出来るのかは実際に試してみると良く分かると思います...git clone https://github.com/WeizmannVision/DropTheGANcd DropTheGANレポジトリは必要です。 import fireModuleNotFoundError: No module named 'fire'こうなってしまったので、fireのイ
2023/01/18 00:02
単一画像生成モデルとしてのパッチ最近傍を守るためDrop the GAN

主旨としてデータこそが最も重要であると言っていると思うのですが...Ok, let's debunk AI diffusion models by removing the AI and replacing it with classical methods. No neural networks, no training, just patch nearest neighbor search on the dataset with coll
2023/01/17 06:04
バックプロパゲーションでトレーニングする物理ニューラルネットワーク

CPUを使わない物理ニューラルネットワークの論文。NTTさんから、コンピュータを使わず光や振動など物理現象を使ってニューラルネットワークを学習する方法が提案され、手書きの文字を認識できたそうです。メリットは省エネで学習できる点、面白い研究ですね。https://t.co/Qi
2023/01/11 06:40
高速無限音楽波形生成 musika

Generate infinite music in an instant with Musika!In our #ISMIR2022 paper we show how Musika generates coherent infinite audio much faster than real-time on CPU!Try Musika now: https://t.co/z5zWmSaVI5Demo samples: https://t.co/Rhowl1MvIxPaper: https://t.c
2023/01/04 18:46
スケープゴートとしての人工知能

人工知能の責任について考えると、肩代わりさせる生贄としてのシナリオがあり得ると思ったのでした。人工知能と倫理伊藤博文愛知大学愛知大学情報メディアセンター紀要 43 (2018).4.1．市場機能倫理の将来像を検討するにあたり，まず市場（Market）という機能を考
2023/01/01 12:00
人工知能社会実装の場における満足化原理

様々な概念、用語を検討したが、「満足化原理」がおそらく一番適切なのでは...？目標水準を達成する一案を発見した時点で、それ以外の案の探索を中止してそれに満足してしまう。探索を中止してしまう。そういう満足化（妥協、思考停止）をしてしまっている様な人が多そ
2022/12/31 09:00
一つの銀河だけから宇宙論導出

「どういうわけか、確かに銀河が宇宙全体の記憶を保持しているように見えるのです」https://t.co/PqjmeNJnj2— WIRED.jp (@wired_jp) December 15, 2022 これが物理学研究のように見えて、機械学習の側面を持っているのです。銀河を一つだけ観察するだけで、宇宙全体に影響
2022/12/29 11:31
Twitter広告の費用対効果を最大化する方法

これはマーケティングの人達の間では既に良く知られてる事でしょうか？この情報が全然出てこないんですがみんな知ってて秘密にしてるんでしょうか？ 1円広告がおそらく最も費用対効果が良いと思います。インプレッション目的なら、もうこれで十分だと思います。エ
2022/12/28 16:19
電車内でのメディア接触率統計 2022/12

観測期間は2022年6月27日～2022年12月26日ぐらいで、記録した人数は延べ 7478 人です。前回の記録は、電車内でのスマートデバイス利用率 2022/6全体の推移はこうなっています。これらは実際にスマートフォンやアナログメディアを視認した数字なので、持ってい
2022/12/27 10:26
AUTOMATIC1111+DreamBooth:fast-stable-diffusion

#StableDiffusion #AIart #Dreambooth They look so happy togetherNew Dreambooth method, train on multiple subjects without destroying the model all that under an hourhttps://t.co/4hAJBJhCv9 pic.twitter.com/fizSwGdwdh— TheLastBen (@__TheBen) October 26, 202
2022/12/21 11:33
組み合わせ音楽生成用データセット ComMU

ComMU: Dataset for Combinatorial Music GenerationLee Hyun, Hyeonchan Hwang, Kwanho Park, Sharang Han, Seon Joo Kim PozalabsTaehyun Kim, Hyolim Kang, Minjoo Ki Yonsei Univ.In Thirty-sixth Conference on Neural Information Processing Systems Datasets
2022/12/14 21:10
txt2music生成タスクにおける事前学習済みモデルの有効性

Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation TaskShangda Wu Central Conservatory of MusicMaosong Sun Tsinghua UniversityarXiv preprint arXiv:2211.11216 (2022).自然言語モデルの成長は最近目覚ましいですが、記号音
2022/12/08 00:05
言語モデルのルール理解を測るための論理タスク

新しいプレプリントが出ました。https://t.co/rTwAwZDURl 近年の言語モデルは数学が苦手です。画像の通り2つの整数の足し算ですら外挿領域ではニューラルネットはうまく働きません。この課題をより高い視座から克服するために、論理タスクを新たに提案し、重要な帰納バイアス
2022/12/02 07:05
自然言語モデルへの攻撃方法

リンク先を読むと、これは文書分類結果を操作する言い換え離散攻撃の事だと分かります。gigazineでは何で今さら3年も前の研究を挙げてるんでしょうインターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性https://t.co/hro1n2koun
2022/11/25 21:58
MusicBERTでマスク予測の実装

MusicBERTのgithubの方には、音楽生成の方法らしき物は、あまり有用な事は書いてありません。直に言及しているmidiformersはすぐに使う事が出来ます。これでも、マスクの予測しか出来ないようですが.........................................基本的には MusicBERT
2022/11/21 06:42
大規模事前学習によるシンボリック音楽の理解 MusicBERT

複数の音楽タスクに対応したモデルだと思ってよく確認したのですが...これは直接アプリケーションに応用する事は難しいモデルなのではないでしょうか？MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Trainingpdf: https://t.co/nvO4RUj540abs: https://t.
2022/11/20 00:29
画像、言語、マルチモーダル統合モデル : Unified-IO

汎用AIにまた一歩。自然言語処理とコンピュータビジョンに関する幅広い様々なタスクを実行できる汎用的なAI「Unified-IO」が発表された（28億パラメータのモデル）。深度推定、物体検出、姿勢推定、画像生成、画像の説明、質問応答など、多数のタスクに対応。https://t.co/tb
2022/11/14 06:48
完全なハーモニーと伴奏アレンジシステム : AccoMontage2

AccoMontageに基づいて、AccoMontage2 は、リードメロディーを元にハーモニー編曲と伴奏アレンジが出来るシステムです。まずAccoMontageには無い、Harmonization モジュールを導入します。このモジュールは、3つの損失条件を最適化してバランスを取り、構造化された首尾
2022/11/07 21:44
Stable Diffusion生成画像の電子透かし検証

stable-diffusion のgithubの方にさえこのように書いてあります。an invisible watermarking of the outputs, to help viewers identify the images as machine-generated.stable-diffusion の txt2img.py に wm = "StableDiffusionV1" wm_encoder = Watermark
2022/10/31 06:30
独自データでStable-Diffusionモデルのfine finetuning

そういう事をしたいと思う人は多いと思うので、実際に試しました。しかし...Waifu Diffusion is the name for this project of finetuning Stable Diffusion on images and captions downloaded through Danbooru結局Danbooruなのでは...stable-diffusion の方のコード
2022/10/28 00:30
デジタルメディアが党派的選別を通じて感情の二極化を促進する方法

エコーチャンバーが主因ではないと言う主張ですが、しかしこの内容では、別の因子を示したに過ぎず、エコーチャンバー、フィルターバブルを必ずしも否定してはいないのでは...？引用している研究の方では、否定する論拠があるのでしょうか...そして文化的バイアスと言うか
2022/10/25 21:43
DreamBooth サブジェクト埋め込み生成のためのtxt2img拡散モデル

Googleから凄い論文が出てますね。拡散モデルを数枚でちょっとfinetuneするだけで、「あなたのワンちゃん」を生成画像内に自由に登場させられます！ StableDiffusionでやる人めっちゃ出てきそう。原理としては対象に新しいwordを割り当ててモデルをfinetuneするようです。ht
2022/10/18 18:20
声道の再構成に基づくディープフェイク音声の検出

AIが生成した“偽音声”を見抜く技術 99％以上の精度で検出https://t.co/LxbN0OqNvt pic.twitter.com/QjQYVrFRNX— ITmedia NEWS (@itmedia_news) September 26, 2022 偽音声の方は肉声とは懸け離れた音であり、今の延長線上では本物と欺く事は出来ない検出方式なのだと思
2022/10/11 12:27
木構造モデルが表形式データで深層学習よりも優れている理由

「何故樹木モデル（xgboostやランダムフォレストなど）は今でもテーブルデータに対する性能で深層学習を上回るのか」というNeurIPS2022論文。曰く「NNが樹木モデルに確実に勝つためにはテーブルデータ専用NNを作る必要がある」とのこと。3つの樹木モデルの特長にも言及ありht
2022/10/04 06:08
歌詞からメロディーを生成するための新しいパラダイム ROC

rocもMeloForm同様に公開されたばかりです。Re-creation of Creations: A New Paradigm for Lyric-to-Melody GenerationAng Lv,Rui Yan Renmin University of ChinaXu Tan,Tao Qin,Tie-Yan Liu Microsoft Research AsiaarXiv e-prints, 2022, arXiv: 2208.05697.
2022/09/27 12:27
エキスパートシステムとニューラルネットワークに基づいた楽式メロディー生成MeloForm

MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networksabs: https://t.co/8sXiCRDZgr pic.twitter.com/WVlnKLOK7X— AK (@_akhaliq) August 31, 2022 MeloForm: Generating Melody with Musical Form based on Expert Systems and N
2022/09/23 06:46
SongMASSの実装方法

microsoftの機械学習音楽生成プロジェクトとしてレポジトリが有るのですがこのSongMASSは事前トレーニングとアライメント制約のある自動作詞作曲 SongMASS のコードです。git clone https://github.com/microsoft/muzic.gitcd muzicpip install -r requirement
2022/09/16 06:04
ソーシャルメディアと政治的機能不全

ソーシャルメディアはどれほど有害なのか？：論文500本をメタ分析した結果 https://t.co/quKiaFX3ws #最新記事— WIRED.jp (@wired_jp) September 3, 2022 Jonathan Haidt氏の主張は（おそらく）ソーシャルメディアが社会に害を及ぼすのではなく、アルゴリズムが害を及ぼす
2022/09/14 22:25
MusicTransformer tensorflow2.0の実装、学習方法

MusicTransformerがtensorflow1に依存していてtensorflow2で実行出来ないので、その対応方法です。git clone https://github.com/jason9693/MusicTransformer-tensorflow2.0.gitcd MusicTransformer-tensorflow2.0git clone https://github.com/jason9693/midi-neural-p
2022/09/07 06:38
ニューラルネットワークとチョムスキー階層

これはTransformer万能論を否定出来る研究結果でしょうか？Transformerは記憶領域を持たないため、入力を記憶した上でアルゴリズム的に考えないと答えられない様な問題を解く事が出来ません...形式言語理論のチョムスキー階層を用いてNNの様々な構造がどのクラスの問題の
2022/08/31 01:00
ナルシストが陰謀論に惹きつけられる理由

ナルシストの性格特性は陰謀論者に通じるものがあり陰謀論を信じやすいという研究https://t.co/BAeVsvLxsD— GIGAZINE(ギガジン) (@gigazine) August 23, 2022 短絡的にナルシズムと書かれていますが日本語でこの意味は正しく伝わっているでしょうか？誇大性自己愛と過敏
2022/08/29 23:02
連続値感情を条件とするシンボリック音楽生成

``Symbolic music generation conditioned on continuous-valued emotions. (arXiv:2203.16165v1 [https://t.co/3pcQCkeyAA]),'' Serkan Sulun, Matthew E. P. Davies, Paula Viana, https://t.co/nvQXVxgg0S— arXiv Sound (@ArxivSound) March 31, 2022 Symbolic music g
2022/08/22 07:02
順列不変言語モデルによる交響曲生成 SymphonyNet

"Our proposed approach can generate coherent, novel, complex and harmonious symphony compared to human composition + is the pioneer solution for multi-track multi-instrument symbolic music generation."ﾘ=ﾜﾄhttps://t.co/SDqkUjktZGﾘ=ﾜi?ﾘ=ﾜｻ https://t.co/REVi
2022/08/16 07:12
Transformer VAEによる長時間詳細音楽スタイル転送 MuseMorphose

We have released the source code of MuseMorphose, a Transformer VAE model, on GitHub! (by @slseanwu)https://t.co/2GZ2rZ7pAPWe have updated the arxiv preprint by the way, to v2. https://t.co/0zV0CbNeHS https://t.co/482zUpUOCu— Yi-Hsuan Yang (@affige_yang)
2022/08/10 00:27
フレーズ選択とスタイル転送による伴奏アレンジAccoMontage

AccoMontage: Accompaniment Arrangement via Phrase Selection and Style TransferJingwei Zhao, Gus Xia Music X Lab, NYU ShanghaiarXiv preprint arXiv:2108.11213 (2021).伴奏アレンジは音楽構造の複数制約を伴う難しい音楽生成タスクです。既存のモデルは、特
2022/08/03 06:38
テーマ条件付きTransformerによる音楽生成ThemeTransformer

Theme Transformer: Symbolic Music Generationwith Theme-Conditioned Transformerabs: https://t.co/os4VJQIxHwproject page: https://t.co/616cPqw4sebest model can generate, to some extent, polyphonic pop piano music with repetition and plausible variations of
2022/08/01 07:36
拡散モデルを使用した音楽生成

Symbolic music generation with diffusion models.Gautam Mittal University of CaliforniaJesse Engel, Curtis Hawthorne, Ian Simon Google BrainarXiv preprint arXiv:2103.16091 (2021).Symbolic Music Generation with Diffusion Modelspdf: https://t.co/66K
2022/07/25 21:20
huggingfaceで日本語言語モデルの利用

git clone https://github.com/huggingface/transformerscd transformerspip install .pip install -r requirements.txtpip install fugashi[unidic-lite] ipadic datasets多分これで良いと思います。この後、運転ドメインQAデータセット DDQA-1.0_RC-QA_train.json
2022/07/19 18:56
ニューラルネットワーク無しで自由視点画像生成svox2

これは、新規視点画像合成の実装方法のNeRFからニューラルネットワークを除いたものです。しかし.........................git clone https://github.com/sxyu/svox2.gitcd /content/svox2apt install ninja-build -ypip install imageio-ffmpegpip install ipdb
2022/07/12 22:10
電車内で読まれている書籍の分析2022

観測期間は2021/07/06 ～ 2022/07/07 でこの間は 1033冊ぐらい記録しました。前回の記録電車内での読書傾向の分析2021電車内で読まれる本の内55/1033 ぐらいが図書館図書でしたレンタル本や古本(bookoff)等も記録したんですが、やはり1,2冊ぐらいしかないです。これ
2022/07/08 09:07
大規模言語モデルの創発能力

言語モデルのスケール（モデルサイズ、投入計算量）を大きくしていった時に算数や質問応答等など様々な能力が非連続的に発現しタスクが急に解けることについての実験と考察。数百億パラメータ以上で急に発現する。今後スケールして他の未解決タスクが急に解ける可能性は高い
2022/07/05 12:07
imagenの実装実行方法

Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingChitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim
2022/06/29 06:16
電車内でのスマートデバイス利用率 2022/6

観測期間は2021年12月26日～2022年6月26日ぐらいで、記録した人数は延べ 7030 人です。前回の記録は、電車内でのスマートフォン利用率統計 2021/12全体の推移はこうなっています。これらの数字は、観測した物の数字なので、表に出ていない分
2022/06/28 18:07
敵対的物理層ワイヤレスセンシングへの対抗策IRShield

「室内で動く人をWi-Fiで監視できる攻撃」を妨害するデバイス検出率を5％以下まで低下 https://t.co/34yAW5eJNB Wi-Fi等の無線信号が伝播中に室内の壁や物,人からの反射の影響を受けているため,攻撃者は外部から無線信号を取得し室内の人の動きを把握できる。この伝播を混
2022/06/22 10:14
AWS Customer Carbon Footprint Tool

AWSの使用量に応じて二酸化炭素排出量を推定する、Customer Carbon Footprint Toolがリリースされました。機械学習モデルを学習した後に見てみるとよいかもです。billingのCost & Usage Reportsから参照できます。https://t.co/wT1kCTQwlQ— piqcy (@icoxfog417) March 8, 2
2022/06/15 06:34
新規視点画像合成の実装方法

ニューラルネットワークを用いて画像表現のパラメータを最適化することで､視点合成（view synthesis）における長年の問題に取り組んでいます｡https://t.co/SPCM4G1MPb— AI技術最新情報メディア AI-SCHOLAR (@ai_scholar) June 6, 2022 3D Photo Inpainting とは何が違う
2022/06/13 18:58
深層強化学習におけるPrimacy Bias

人には最初の記憶が印象に残りやすい初頭効果があるのと同様に、強化学習も最初の試行錯誤に過学習し後の有益な試行錯誤を無視しがちで学習に悪影響を及ぼす。リプレイバッファを保持したまま定期的に最後の層いくつかを初期化するだけでこれを防ぎ、学習を大きく改善できる
2022/06/06 06:22

「ブログリーダー」を活用して、TAKさんをフォローしませんか？

ハンドル名: TAKさん

ブログタイトル: 研究開発

フォロー

ユーザの記事画像

続きを見る

ユーザの新着記事

カスケード拡散モデルによる全曲階層的シンボリック音楽生成
``Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models,'' Ziyu Wang, Lejun Min, Gus Xia, https://t.co/KjXwq12nG2— arXiv Sound (@ArxivSound) May 17, 2024 これも楽譜を画像と見なして階層的に生成する研究ですが、言語モデル型
大規模言語モデルに困難な推論を克服する償却ベイズ推論
LLMでChain-of-Thoughtは潜在トークン列を事後分布列から生成するタスクとみなせる。LLMのファインチューニング時にGFlowNetsを使って潜在変数を順に生成するように学習。推論の途中経過を潜在変数とみなすアプローチは興味深い（以前もRAGであった https://t.co/3pf3gA4eDO
大規模言語モデルの実力を再評価学習データに潜む過剰適合
実は最近のLLMは,学習中に評価用のベンチマークと酷似したデータを(意図的にせよ非意図的にせよ)カンニング/暗記しており,それで評価スコアが高くなっていたのではないか問題https://t.co/r70kcwMv6q完全新規ベンチマーク(GSM1k)を作り評価すると,見事にほとんどのLLMの性能
大規模言語モデルが持ち得る創発能力の幻想
『最新の研究により、大規模言語モデル（LLM）の性能が突然飛躍することは驚きでも予測不能でもなく、実際には人工知能（AI）の性能を測る方法に関係していることが示された。』AIの「創発性」は幻影に過ぎない ── 大規模言語モデルの新たな測定で判明https://t.co/5uxLcwA
楽曲再生回数と歌詞の因子分析による影響力の分析
データは最近の人気曲で歌詞の分析と比較と同じで、2016/1 ～ 2024/4 辺りの647曲です。再生回数と、歌詞に含まれる単語を取得し、平均値を算出します。再生回数の全体平均が 69585.55631 なので、単語が人気に影響を与えるかどうかは、平均値に対しての上下です。.
100kドルでLlama2より高精度を達成:JetMoE
「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場https://t.co/rn3VjsWaB8— GIGAZINE(ギガジン) (@gigazine) April 5, 2024 なぜ学習コストを減らす事が出来るのか、どのようにしたのかに、興味持つ人が全然いな
LLMの流暢な作り話を人間が信用する理由
2017年頃に応用数理学会で「AIの説明可能性はAIじゃなくて人間側の問題」って趣旨のコメントをした記憶があるんだけど，ChatGPTで一段社会のステージが変わった（AIの説明を人間が受け入れるようになった）ように思う．顧客が本当に必要だったのは精度（説明）じゃなくて流暢
言語モデルをggufファイルに変換してllamafileに読み込ませる
大規模言語モデルを単一ファイルで配布・実行する「llamafile」のバージョン0.7で処理能力が最大10倍高速化https://t.co/OL16t4BwHa— GIGAZINE(ギガジン) (@gigazine) April 2, 2024 https://github.com/Mozilla-Ocho/llamafileUnfortunately, Windows users cannot make
Generative Classifierの興味深い特性
従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。https://t.c
最近の人気曲で歌詞の分析と比較
近年の音楽業界では、曲の内容、傾向が以前と比較して変化が起きてると考えられてると思います。...これは、z世代の選好の質的な変化とか言うよりはむしろ、ストリーミングサービス普及によって、全体的な変化が生じてる、のでは...？J-pop歌詞の分析と比較の時と同じよ
コンピュータービジョンで自動化する費用対効果が高いタスクは何か？ AI Exposure
RT人間の労働力の方が人工知能より安価～ MITの研究、雇用機会の大部分は人工知能にまだ奪われないと結論https://t.co/0ScCAUtu85— 森山和道／ライター、書評屋 (@kmoriyama) April 12, 2024 この研究はどの論文なのかと思ったんですが、どうもManagement Science誌に投
Proxyによる言語モデルチューニング
LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力（logits）に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models
言語モデルへのMany shot 倫理解除攻撃
大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見されるhttps://t.co/BRV3Y72jdX— GIGAZINE(ギガジン) (@gigazine) April 3, 2024 大量の質問ではないですね。大
消費者向けGPUで機能する高速大規模言語モデルPowerInferの実装
これすごい。必要なところだけGPUにして残りはCPUで推論させて40Bモデルを4090(24G)で動作。llama.cppの11倍高速https://t.co/WXy3xeI424— shi3z (@shi3z) December 24, 2023 PowerInferは、Llama2に比べたらまだ早かったですが...また、出力があんまり良くないような気
実稼働言語モデルへの部分窃取手法
Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。"Stealing Part of a Production L
GenAIによるAIワームの登場:アプリケーションを標的とするゼロクリックワーム
研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH— WIRED.jp (@wired_jp) March 12, 2024 システムがメッセージ（プロンプト）の保存や、RAG等を実行しなければ、ワームは機能しません。そう思ったのですが、そ
自己教師あり学習のためのノイズ除去拡散モデルの分解
拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった（画素空間ではダメ）。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t
状態空間言語モデルmambaの独自データで学習方法
選択的状態空間を使用した線形時間系列モデリングSSM の実際の実装方法と、学習方法です。git clone https://github.com/state-spaces/mambacd mamba実行のためにはこうするだけではなく、pip install causal-conv1d>=1.1.0,こうする必要がありました。import to
文字起こしReazonSpeecの実装方法
文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試したspeech,rate = librosa.load("audio.mp3", sr=44100)result = reazonspeech(speech)result[0][0]書いてある通りの実行方法で上手く行き、最初はエラーは何も生じませんでした。実行にはrea
選択的状態空間を使用した線形時間系列モデリングSSM
MambaはS4に入力を選択的に記憶/忘却をできるよう重み、間隔幅を入力に応じて変える仕組み（S6）を導入。高速メモリ内で内部状態を展開し、Parallel Scanを利用。SSMは性能がTransformerに匹敵しつつあり効率的なため今後多くの問題でTransformerに置き換わる可能性が高い ht

続きを見る

watch_later ユーザの過去記事

プロンプトから音楽生成 MusicLM
MusicLM: Generating Music From TextPresents MusicLM, a model for generating high-fidelity music from text. MusicLM generates music at 24 kHz that remains consistent over several minutes.proj: https://t.co/8vzBONkPe3abs: https://t.co/vzW01q7VpHdata: https:
Python高速化コンパイラCodon
PythonでC／C++に匹敵する実行速度を実現米MITなどコンパイラ「Codon」開発https://t.co/3LeXsI8zKa pic.twitter.com/SFGg03JGK9— ITmedia NEWS (@itmedia_news) March 23, 2023 /bin/bash -c "$(curl -fsSL https://exaloop.io/install.sh)"これでインストール出来ま
Google Apps ScriptでTwitter OAuth2.0認証
GAS からの場合、 Twitter API V2でOAuth2.0認証のやり方のように簡単にはいきません...上手く行かなかった所だけ、理由まで含めて書いておきます。OAuth2 ライブラリのスクリプトIDは 1B7FSrk5Zi6L1rSxxTDgDEUsPzlukDsi4KGuTMorsTQHhGBzBkMun4iDF です。OAuth1 の
Cross Attention制御によるPrompt2Prompt画像編集
最近のtext to imageモデルは、プロンプトに沿った画像を生成する能力を持ちますが、この生成モデルでは画像編集は困難です。本研究ではプロンプトの編集で画像を操作する事について取り組みます...One finds new pseudo-words in the embedding space of a language mode
学習データが枯渇する日：機械学習におけるデータスケーリング限界の分析
自然言語では2030～2040ぐらいには枯渇しそうとの事ですが高品質データはそれよりも圧倒的に早く、2027年にはかなり確実に枯渇するとの予測です。最近の言語モデルがデータ量依存なのであれば、今のままだと割と早く性能の限界が来ると...高品質データを作る作業をしたと
Twitter API V2でOAuth2.0認証のやり方
まず、アカウント申請します。Developer Portal の画面で key,tokenが既にあるならば、おそらくregenerateになりますが、無い場合は、ボタンがgenerateのままになっていると思います。当然これらは作らなければなりません。............................
会話モデルのHallucinationの起源についてデータセットかモデルか
データセットにも無責任な文例が多数存在するが、モデル自体も、それに基づいたHallucinationを増幅させる。しかし研究対象としたモデルが1世代ぐらい前（GPT-2等）なので、より新しい例えばchatGPT等のHallucinations等には正確には対応しないのでは...？大規模言語モ
ChatExtract 会話型言語モデルとプロンプトエンジニアリングによる論文からのデータ抽出
ChatGPTで「論文から非常に正確なデータ抽出」できるとの報告https://t.co/uOLCvV2lnEウィスコンシン大学の研究者らによると、ChatGPTに適切なプロンプトを与えるだけで、論文から高精度なデータ抽出が実現できる。前提条件の入力は不要。他の会話型大規模言語モデルでも使
Azure OpenAI Serviceで言語モデルを独自データで再学習の方法
2023/4/6時点で、Azure OpenAIではchatGPT（gpt-35-turbo）GPT-3（davinci,curie,babbage,ada）Codex（davinci,chshman）embedding（davinci,curie,babbage,ada）等が利用出来ます...独自データで言語モデルの再学習を試した人は現時点ではほとんどいないでしょうか？
再現可能で強力な指示実行型モデル Alpaca
Instruction-following models are now ubiquitous, but API-only access limits research.Today, we’re releasing info on Alpaca (solely for research use), a small but capable 7B model based on LLaMA that often behaves like OpenAI’s text-davinci-003.Demo: htt
大規模言語モデルは剽窃するか?
言語生成AIは文章を“盗作”しているのか？ 21万件の文章から米国の研究者らが分析https://t.co/BBXdgH7ysA pic.twitter.com/CxKfjm5NyH— ITmedia NEWS (@itmedia_news) February 21, 2023 Do Language Models Plagiarize?Jooyoung Lee, Jinghui Chen, Dongwon Lee Pen
制御性を備えた音楽生成に関する Diffusion-LM
Diffusion-lm improves controllable text generation.Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto Stanford UniveristyarXiv preprint arXiv:2205.14217 (2022).再トレーニングなしで言語モデルを制御することは、自然
AIアシスタントを使用したプログラマはより脆弱なコードを作成します
Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ— 新
パフォーマンス、気分、伝搬に関して、丁寧、失礼ロボット励まし効果の比較
【褒めは伝搬する？】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
GLAZE 画像生成拡散モデルによるスタイル模倣からアーティストを保護する
この研究面白いな.. 人の目には見えないノイズを画像に追加することで、Stable Diffusionなどのモデルでの学習、スタイルの模倣を困難に。アーティストのためのAdversarial examples的なもの!? GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models https:
ランダムフォレスト,音象徴によるポケモン進化分類
ポケモンの名前をランダムフォレスト（機械学習）で分析した論文も出ました！https://t.co/BLoryPMoLS1月から飛ばしますねー（努力したのは去年ですが）。— Shigeto Kawahara@Keio (@PhoneticsKeio) January 6, 2023 Random forests, sound symbolism and Pokemon evoluti
WaveNet , LSTM アプローチによる自動音楽生成
https://github.com/abhayp2204/Music-GeneratorこのプロジェクトはWaveNetとLSTMによる自動音楽生成に焦点を当てます。WaveNet の構造は、言語モデルに似ています。次の単語を予測する代わりに、音符とコードから次の音符を予測します。手順複数のMIDIファイルから
リードシート生成条件付きseq2seqフレームワーク
Generating lead sheets with affect: A novel conditional seq2seq framework.Dimos Makris, Kat R. Agres, Dorien HerremansInternational Joint Conference on Neural Networks (IJCNN). IEEE, 2021.ディープニューラルネットワークによって自動作曲は進歩しましたが
ChatGPT生成テキストを判別する機械学習モデルの判断基準
https://t.co/QiZj6TZjoTChatGPTが書いた文章かどうかを機械学習で判別する研究。ChatGPTの生成文書は感情ではなく経験を記述し、丁寧であり、詳細には入らず一般的な用語で表現する、という傾向があることを発見。 pic.twitter.com/EoOoxz7ldC— akira (@AkiraTOSEI) Februa
gmailでアプリパスワードメール設定
以前から試していたのですが何故か上手くいかなかったので...まずgoogleアカウントのセキュリティから2段階認証を有効にします。そしてアプリパスワードを発行します。このアプリパスワードは、おそらく16桁固定です。そうしてからgmailアドレスと、このアプリパス