``Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models,'' Ziyu Wang, Lejun Min, Gus Xia, https://t.co/KjXwq12nG2— arXiv Sound (@ArxivSound) May 17, 2024 これも楽譜を画像と見なして階層的に生成する研究ですが、言語モデル型
MusicLM: Generating Music From TextPresents MusicLM, a model for generating high-fidelity music from text. MusicLM generates music at 24 kHz that remains consistent over several minutes.proj: https://t.co/8vzBONkPe3abs: https://t.co/vzW01q7VpHdata: https:
PythonでC/C++に匹敵する実行速度を実現 米MITなどコンパイラ「Codon」開発https://t.co/3LeXsI8zKa pic.twitter.com/SFGg03JGK9— ITmedia NEWS (@itmedia_news) March 23, 2023 /bin/bash -c "$(curl -fsSL https://exaloop.io/install.sh)"これでインストール出来ま
Google Apps ScriptでTwitter OAuth2.0認証
GAS からの場合、 Twitter API V2でOAuth2.0認証のやり方のように簡単にはいきません...上手く行かなかった所だけ、理由まで含めて書いておきます。OAuth2 ライブラリのスクリプトIDは 1B7FSrk5Zi6L1rSxxTDgDEUsPzlukDsi4KGuTMorsTQHhGBzBkMun4iDF です。OAuth1 の
Cross Attention制御によるPrompt2Prompt画像編集
最近のtext to imageモデルは、プロンプトに沿った画像を生成する能力を持ちますが、この生成モデルでは画像編集は困難です。本研究ではプロンプトの編集で画像を操作する事について取り組みます...One finds new pseudo-words in the embedding space of a language mode
学習データが枯渇する日:機械学習におけるデータスケーリング限界の分析
自然言語では2030~2040ぐらいには枯渇しそうとの事ですが高品質データはそれよりも圧倒的に早く、2027年にはかなり確実に枯渇するとの予測です。最近の言語モデルがデータ量依存なのであれば、今のままだと割と早く性能の限界が来ると...高品質データを作る作業をしたと
まず、アカウント申請します。Developer Portal の画面で key,tokenが既にあるならば、おそらくregenerateになりますが、無い場合は、ボタンがgenerateのままになっていると思います。当然これらは作らなければなりません。............................
会話モデルのHallucinationの起源について データセットかモデルか
データセットにも無責任な文例が多数存在するが、モデル自体も、それに基づいたHallucinationを増幅させる。しかし研究対象としたモデルが1世代ぐらい前(GPT-2等)なので、より新しい例えばchatGPT等のHallucinations等には正確には対応しないのでは...? 大規模言語モ
ChatExtract 会話型言語モデルとプロンプトエンジニアリングによる論文からのデータ抽出
ChatGPTで「論文から非常に正確なデータ抽出」できるとの報告https://t.co/uOLCvV2lnEウィスコンシン大学の研究者らによると、ChatGPTに適切なプロンプトを与えるだけで、論文から高精度なデータ抽出が実現できる。前提条件の入力は不要。他の会話型大規模言語モデルでも使
Azure OpenAI Serviceで言語モデルを独自データで再学習の方法
2023/4/6時点で、Azure OpenAIではchatGPT(gpt-35-turbo)GPT-3(davinci,curie,babbage,ada)Codex(davinci,chshman)embedding(davinci,curie,babbage,ada)等が利用出来ます...独自データで言語モデルの再学習を試した人は現時点ではほとんどいないでしょうか?
Instruction-following models are now ubiquitous, but API-only access limits research.Today, we’re releasing info on Alpaca (solely for research use), a small but capable 7B model based on LLaMA that often behaves like OpenAI’s text-davinci-003.Demo: htt
言語生成AIは文章を“盗作”しているのか? 21万件の文章から米国の研究者らが分析https://t.co/BBXdgH7ysA pic.twitter.com/CxKfjm5NyH— ITmedia NEWS (@itmedia_news) February 21, 2023 Do Language Models Plagiarize?Jooyoung Lee, Jinghui Chen, Dongwon Lee Pen
Diffusion-lm improves controllable text generation.Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto Stanford UniveristyarXiv preprint arXiv:2205.14217 (2022).再トレーニングなしで言語モデルを制御することは、自然
AIアシスタントを使用したプログラマはより脆弱なコードを作成します
Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ— 新
パフォーマンス、気分、伝搬に関して、丁寧、失礼ロボット励まし効果の比較
【褒めは伝搬する?】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
GLAZE 画像生成拡散モデルによるスタイル模倣からアーティストを保護する
この研究面白いな.. 人の目には見えないノイズを画像に追加することで、Stable Diffusionなどのモデルでの学習、スタイルの模倣を困難に。アーティストのためのAdversarial examples的なもの!? GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models https:
ポケモンの名前をランダムフォレスト(機械学習)で分析した論文も出ました!https://t.co/BLoryPMoLS1月から飛ばしますねー(努力したのは去年ですが)。— Shigeto Kawahara@Keio (@PhoneticsKeio) January 6, 2023 Random forests, sound symbolism and Pokemon evoluti
https://github.com/abhayp2204/Music-GeneratorこのプロジェクトはWaveNetとLSTMによる自動音楽生成に焦点を当てます。WaveNet の構造は、言語モデルに似ています。次の単語を予測する代わりに、音符とコードから次の音符を予測します。手順複数のMIDIファイルから
Generating lead sheets with affect: A novel conditional seq2seq framework.Dimos Makris, Kat R. Agres, Dorien HerremansInternational Joint Conference on Neural Networks (IJCNN). IEEE, 2021.ディープニューラルネットワークによって自動作曲は進歩しましたが
ChatGPT生成テキストを判別する機械学習モデルの判断基準
https://t.co/QiZj6TZjoTChatGPTが書いた文章かどうかを機械学習で判別する研究。ChatGPTの生成文書は感情ではなく経験を記述し、丁寧であり、詳細には入らず一般的な用語で表現する、という傾向があることを発見。 pic.twitter.com/EoOoxz7ldC— akira (@AkiraTOSEI) Februa
以前から試していたのですが何故か上手くいかなかったので...まずgoogleアカウントのセキュリティから2段階認証を有効にします。そしてアプリパスワードを発行します。このアプリパスワードは、おそらく16桁固定です。そうしてからgmailアドレスと、このアプリパス
Long-Context拡散モデルによるテキストから音楽への生成 Mousai
And we have another text-to-music paper... Mousai proposes a cascading latent diffusion approach that generates minutes of stereo audio at 48 kHz and allows real-time inference on one GPU.abs: https://t.co/bhkuac97Q1demo: https://t.co/eK16ExJwEXcode: http
対話AI「ChatGPT」が書いた論文の要旨を研究者は見分けることができないという報告https://t.co/t9pMA2DSHp— GIGAZINE(ギガジン) (@gigazine) January 15, 2023 Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intellige
Diffusion for music synthesis!We trained a “notes2audio” pipeline to synthesize audio from multi-instrument MIDI notes.Listen ??: https://t.co/keM3PgK0bCPlay ??: https://t.co/KeuRwZfJAhCode ?????: https://t.co/mczOUi8r6bRead ?? : https://t.co/hSFZePbLrc
自然言語生成における Hallucination 幻覚の調査
チャットボットAIの返答は全て「幻覚」、最大の難関はハルシ ... - ITpro https://t.co/2xVLrAkNDf— 人工知能・機械学習ニュース [公式] (@A_I_News) January 5, 2023 Hallucination の訳として、日本語の幻覚と言う言葉には正確に一致しないと思うんです。 Hallucinatio
DropTheGANで何が出来るのかは実際に試してみると良く分かると思います...git clone https://github.com/WeizmannVision/DropTheGANcd DropTheGANレポジトリは必要です。 import fireModuleNotFoundError: No module named 'fire'こうなってしまったので、fireのイ
単一画像生成モデルとしてのパッチ最近傍を守るためDrop the GAN
主旨としてデータこそが最も重要であると言っていると思うのですが...Ok, let's debunk AI diffusion models by removing the AI and replacing it with classical methods. No neural networks, no training, just patch nearest neighbor search on the dataset with coll
バックプロパゲーションでトレーニングする物理ニューラルネットワーク
CPUを使わない物理ニューラルネットワークの論文。NTTさんから、コンピュータを使わず光や振動など物理現象を使ってニューラルネットワークを学習する方法が提案され、手書きの文字を認識できたそうです。メリットは省エネで学習できる点、面白い研究ですね。https://t.co/Qi
Generate infinite music in an instant with Musika!In our #ISMIR2022 paper we show how Musika generates coherent infinite audio much faster than real-time on CPU!Try Musika now: https://t.co/z5zWmSaVI5Demo samples: https://t.co/Rhowl1MvIxPaper: https://t.c
人工知能の責任について考えると、肩代わりさせる生贄としてのシナリオがあり得ると思ったのでした。人工知能と倫理伊藤博文 愛知大学愛知大学情報メディアセンター紀要 43 (2018).4.1.市場機能倫理の将来像を検討するにあたり,まず市場(Market)という機能を考
様々な概念、用語を検討したが、「満足化原理」がおそらく一番適切なのでは...?目標水準を達成する一案を発見した時点で、それ以外の案の探索を中止してそれに満足してしまう。探索を中止してしまう。 そういう満足化(妥協、思考停止)をしてしまっている様な人が多そ
「どういうわけか、確かに銀河が宇宙全体の記憶を保持しているように見えるのです」https://t.co/PqjmeNJnj2— WIRED.jp (@wired_jp) December 15, 2022 これが物理学研究のように見えて、機械学習の側面を持っているのです。銀河を一つだけ観察するだけで、宇宙全体に影響
これはマーケティングの人達の間では既に良く知られてる事でしょうか? この情報が全然出てこないんですがみんな知ってて秘密にしてるんでしょうか? 1円広告がおそらく最も費用対効果が良いと思います。インプレッション目的なら、もうこれで十分だと思います。エ
観測期間は2022年6月27日~2022年12月26日ぐらいで、 記録した人数は延べ 7478 人です。前回の記録は、電車内でのスマートデバイス利用率 2022/6全体の推移はこうなっています。 これらは実際にスマートフォンやアナログメディアを視認した数字なので、持ってい
AUTOMATIC1111+DreamBooth:fast-stable-diffusion
#StableDiffusion #AIart #Dreambooth They look so happy togetherNew Dreambooth method, train on multiple subjects without destroying the model all that under an hourhttps://t.co/4hAJBJhCv9 pic.twitter.com/fizSwGdwdh— TheLastBen (@__TheBen) October 26, 202
ComMU: Dataset for Combinatorial Music GenerationLee Hyun, Hyeonchan Hwang, Kwanho Park, Sharang Han, Seon Joo Kim PozalabsTaehyun Kim, Hyolim Kang, Minjoo Ki Yonsei Univ.In Thirty-sixth Conference on Neural Information Processing Systems Datasets
txt2music生成タスクにおける事前学習済みモデルの有効性
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation TaskShangda Wu Central Conservatory of MusicMaosong Sun Tsinghua UniversityarXiv preprint arXiv:2211.11216 (2022).自然言語モデルの成長は最近目覚ましいですが、記号音
新しいプレプリントが出ました。https://t.co/rTwAwZDURl 近年の言語モデルは数学が苦手です。画像の通り2つの整数の足し算ですら外挿領域ではニューラルネットはうまく働きません。この課題をより高い視座から克服するために、論理タスクを新たに提案し、重要な帰納バイアス
リンク先を読むと、これは文書分類結果を操作する言い換え離散攻撃の事だと分かります。gigazineでは何で今さら3年も前の研究を挙げてるんでしょうインターネット上の文章にわざと誤字脱字をまぎれこませることでAIを狂わせるサイバー攻撃の可能性https://t.co/hro1n2koun
MusicBERTのgithubの方には、音楽生成の方法らしき物は、あまり有用な事は書いてありません。直に言及しているmidiformersはすぐに使う事が出来ます。これでも、マスクの予測しか出来ないようですが.........................................基本的には MusicBERT
大規模事前学習によるシンボリック音楽の理解 MusicBERT
複数の音楽タスクに対応したモデルだと思ってよく確認したのですが...これは直接アプリケーションに応用する事は難しいモデルなのではないでしょうか?MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Trainingpdf: https://t.co/nvO4RUj540abs: https://t.
画像、言語、マルチモーダル統合モデル : Unified-IO
汎用AIにまた一歩。自然言語処理とコンピュータビジョンに関する幅広い様々なタスクを実行できる汎用的なAI「Unified-IO」が発表された(28億パラメータのモデル)。深度推定、物体検出、姿勢推定、画像生成、画像の説明、質問応答など、多数のタスクに対応。https://t.co/tb
完全なハーモニーと伴奏アレンジシステム : AccoMontage2
AccoMontageに基づいて、AccoMontage2 は、リードメロディーを元にハーモニー編曲と伴奏アレンジが出来るシステムです。まずAccoMontageには無い、Harmonization モジュールを導入します 。このモジュールは、3つの損失条件を最適化してバランスを取り、構造化された首尾
stable-diffusion のgithubの方にさえこのように書いてあります。an invisible watermarking of the outputs, to help viewers identify the images as machine-generated.stable-diffusion の txt2img.py に wm = "StableDiffusionV1" wm_encoder = Watermark
独自データでStable-Diffusionモデルのfine finetuning
そういう事をしたいと思う人は多いと思うので、実際に試しました。しかし...Waifu Diffusion is the name for this project of finetuning Stable Diffusion on images and captions downloaded through Danbooru結局Danbooruなのでは...stable-diffusion の方のコード
デジタルメディアが党派的選別を通じて感情の二極化を促進する方法
エコーチャンバーが主因ではないと言う主張ですが、しかしこの内容では、別の因子を示したに過ぎず、エコーチャンバー、フィルターバブルを必ずしも否定してはいないのでは...?引用している研究の方では、否定する論拠があるのでしょうか...そして文化的バイアスと言うか
DreamBooth サブジェクト埋め込み生成のためのtxt2img拡散モデル
Googleから凄い論文が出てますね。拡散モデルを数枚でちょっとfinetuneするだけで、「あなたのワンちゃん」を生成画像内に自由に登場させられます! StableDiffusionでやる人めっちゃ出てきそう。原理としては対象に新しいwordを割り当ててモデルをfinetuneするようです。ht
AIが生成した“偽音声”を見抜く技術 99%以上の精度で検出https://t.co/LxbN0OqNvt pic.twitter.com/QjQYVrFRNX— ITmedia NEWS (@itmedia_news) September 26, 2022 偽音声の方は肉声とは懸け離れた音であり、今の延長線上では本物と欺く事は出来ない検出方式なのだと思
「何故樹木モデル(xgboostやランダムフォレストなど)は今でもテーブルデータに対する性能で深層学習を上回るのか」というNeurIPS2022論文。曰く「NNが樹木モデルに確実に勝つためにはテーブルデータ専用NNを作る必要がある」とのこと。3つの樹木モデルの特長にも言及ありht
rocもMeloForm同様に公開されたばかりです。Re-creation of Creations: A New Paradigm for Lyric-to-Melody GenerationAng Lv,Rui Yan Renmin University of ChinaXu Tan,Tao Qin,Tie-Yan Liu Microsoft Research AsiaarXiv e-prints, 2022, arXiv: 2208.05697.
エキスパートシステムとニューラルネットワークに基づいた楽式メロディー生成MeloForm
MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networksabs: https://t.co/8sXiCRDZgr pic.twitter.com/WVlnKLOK7X— AK (@_akhaliq) August 31, 2022 MeloForm: Generating Melody with Musical Form based on Expert Systems and N
microsoftの機械学習音楽生成プロジェクトとしてレポジトリが有るのですがこのSongMASSは事前トレーニングとアライメント制約のある自動作詞作曲 SongMASS のコードです。git clone https://github.com/microsoft/muzic.gitcd muzicpip install -r requirement
ソーシャルメディアはどれほど有害なのか?:論文500本をメタ分析した結果 https://t.co/quKiaFX3ws #最新記事— WIRED.jp (@wired_jp) September 3, 2022 Jonathan Haidt氏の主張は(おそらく)ソーシャルメディアが社会に害を及ぼすのではなく、アルゴリズムが害を及ぼす
MusicTransformer tensorflow2.0の実装、学習方法
MusicTransformerがtensorflow1に依存していてtensorflow2で実行出来ないので、その対応方法です。git clone https://github.com/jason9693/MusicTransformer-tensorflow2.0.gitcd MusicTransformer-tensorflow2.0git clone https://github.com/jason9693/midi-neural-p
これはTransformer万能論を否定出来る研究結果でしょうか?Transformerは記憶領域を持たないため、入力を記憶した上でアルゴリズム的に考えないと答えられない様な問題を解く事が出来ません...形式言語理論のチョムスキー階層を用いてNNの様々な構造がどのクラスの問題の
ナルシストの性格特性は陰謀論者に通じるものがあり陰謀論を信じやすいという研究https://t.co/BAeVsvLxsD— GIGAZINE(ギガジン) (@gigazine) August 23, 2022 短絡的にナルシズムと書かれていますが日本語でこの意味は正しく伝わっているでしょうか?誇大性自己愛と過敏
``Symbolic music generation conditioned on continuous-valued emotions. (arXiv:2203.16165v1 [https://t.co/3pcQCkeyAA]),'' Serkan Sulun, Matthew E. P. Davies, Paula Viana, https://t.co/nvQXVxgg0S— arXiv Sound (@ArxivSound) March 31, 2022 Symbolic music g
"Our proposed approach can generate coherent, novel, complex and harmonious symphony compared to human composition + is the pioneer solution for multi-track multi-instrument symbolic music generation."リ=ワトhttps://t.co/SDqkUjktZGリ=ワi?リ=ワサ https://t.co/REVi
Transformer VAEによる長時間詳細音楽スタイル転送 MuseMorphose
We have released the source code of MuseMorphose, a Transformer VAE model, on GitHub! (by @slseanwu)https://t.co/2GZ2rZ7pAPWe have updated the arxiv preprint by the way, to v2. https://t.co/0zV0CbNeHS https://t.co/482zUpUOCu— Yi-Hsuan Yang (@affige_yang)
フレーズ選択とスタイル転送による伴奏アレンジAccoMontage
AccoMontage: Accompaniment Arrangement via Phrase Selection and Style TransferJingwei Zhao, Gus Xia Music X Lab, NYU ShanghaiarXiv preprint arXiv:2108.11213 (2021).伴奏アレンジは音楽構造の複数制約を伴う難しい音楽生成タスクです。既存のモデルは、特
テーマ条件付きTransformerによる音楽生成ThemeTransformer
Theme Transformer: Symbolic Music Generationwith Theme-Conditioned Transformerabs: https://t.co/os4VJQIxHwproject page: https://t.co/616cPqw4sebest model can generate, to some extent, polyphonic pop piano music with repetition and plausible variations of
Symbolic music generation with diffusion models.Gautam Mittal University of CaliforniaJesse Engel, Curtis Hawthorne, Ian Simon Google BrainarXiv preprint arXiv:2103.16091 (2021).Symbolic Music Generation with Diffusion Modelspdf: https://t.co/66K
git clone https://github.com/huggingface/transformerscd transformerspip install .pip install -r requirements.txtpip install fugashi[unidic-lite] ipadic datasets多分これで良いと思います。この後、運転ドメインQAデータセット DDQA-1.0_RC-QA_train.json
これは、新規視点画像合成の実装方法のNeRFからニューラルネットワークを除いたものです。しかし.........................git clone https://github.com/sxyu/svox2.gitcd /content/svox2apt install ninja-build -ypip install imageio-ffmpegpip install ipdb
観測期間は2021/07/06 ~ 2022/07/07 でこの間は 1033冊ぐらい記録しました。前回の記録 電車内での読書傾向の分析2021電車内で読まれる本の内55/1033 ぐらいが図書館図書でしたレンタル本や古本(bookoff)等も記録したんですが、やはり1,2冊ぐらいしかないです。これ
言語モデルのスケール(モデルサイズ、投入計算量)を大きくしていった時に算数や質問応答等など様々な能力が非連続的に発現しタスクが急に解けることについての実験と考察。数百億パラメータ以上で急に発現する。今後スケールして他の未解決タスクが急に解ける可能性は高い
Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingChitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim
観測期間は2021年12月26日~2022年6月26日ぐらいで、 記録した人数は延べ 7030 人です。前回の記録は、電車内でのスマートフォン利用率統計 2021/12全体の推移はこうなっています。 これらの数字は、観測した物の数字なので、表に出ていない分
「室内で動く人をWi-Fiで監視できる攻撃」を妨害するデバイス 検出率を5%以下まで低下 https://t.co/34yAW5eJNB Wi-Fi等の無線信号が伝播中に室内の壁や物,人からの反射の影響を受けているため,攻撃者は外部から無線信号を取得し室内の人の動きを把握できる。この伝播を混
AWS Customer Carbon Footprint Tool
AWSの使用量に応じて二酸化炭素排出量を推定する、Customer Carbon Footprint Toolがリリースされました。機械学習モデルを学習した後に見てみるとよいかもです。billingのCost & Usage Reportsから参照できます。https://t.co/wT1kCTQwlQ— piqcy (@icoxfog417) March 8, 2
ニューラルネットワークを用いて画像表現のパラメータを最適化することで、視点合成(view synthesis)における長年の問題に取り組んでいます。https://t.co/SPCM4G1MPb— AI技術最新情報メディア AI-SCHOLAR (@ai_scholar) June 6, 2022 3D Photo Inpainting とは何が違う
人には最初の記憶が印象に残りやすい初頭効果があるのと同様に、強化学習も最初の試行錯誤に過学習し後の有益な試行錯誤を無視しがちで学習に悪影響を及ぼす。リプレイバッファを保持したまま定期的に最後の層いくつかを初期化するだけでこれを防ぎ、学習を大きく改善できる
「ブログリーダー」を活用して、TAKさんをフォローしませんか?
``Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models,'' Ziyu Wang, Lejun Min, Gus Xia, https://t.co/KjXwq12nG2— arXiv Sound (@ArxivSound) May 17, 2024 これも楽譜を画像と見なして階層的に生成する研究ですが、言語モデル型
LLMでChain-of-Thoughtは潜在トークン列を事後分布列から生成するタスクとみなせる。LLMのファインチューニング時にGFlowNetsを使って潜在変数を順に生成するように学習。推論の途中経過を潜在変数とみなすアプローチは興味深い(以前もRAGであった https://t.co/3pf3gA4eDO
実は最近のLLMは,学習中に評価用のベンチマークと酷似したデータを(意図的にせよ非意図的にせよ)カンニング/暗記しており,それで評価スコアが高くなっていたのではないか問題https://t.co/r70kcwMv6q完全新規ベンチマーク(GSM1k)を作り評価すると,見事にほとんどのLLMの性能
『最新の研究により、大規模言語モデル(LLM)の性能が突然飛躍することは驚きでも予測不能でもなく、実際には人工知能(AI)の性能を測る方法に関係していることが示された。』AIの「創発性」は幻影に過ぎない ── 大規模言語モデルの新たな測定で判明https://t.co/5uxLcwA
データは 最近の人気曲で歌詞の分析と比較 と同じで、2016/1 ~ 2024/4 辺りの647曲です。再生回数と、歌詞に含まれる単語を取得し、平均値を算出します。再生回数の全体平均が 69585.55631 なので、単語が人気に影響を与えるかどうかは、平均値に対しての上下です。.
「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場https://t.co/rn3VjsWaB8— GIGAZINE(ギガジン) (@gigazine) April 5, 2024 なぜ学習コストを減らす事が出来るのか、どのようにしたのかに、興味持つ人が全然いな
2017年頃に応用数理学会で「AIの説明可能性はAIじゃなくて人間側の問題」って趣旨のコメントをした記憶があるんだけど,ChatGPTで一段社会のステージが変わった(AIの説明を人間が受け入れるようになった)ように思う.顧客が本当に必要だったのは精度(説明)じゃなくて流暢
大規模言語モデルを単一ファイルで配布・実行する「llamafile」のバージョン0.7で処理能力が最大10倍高速化https://t.co/OL16t4BwHa— GIGAZINE(ギガジン) (@gigazine) April 2, 2024 https://github.com/Mozilla-Ocho/llamafileUnfortunately, Windows users cannot make
従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。https://t.c
近年の音楽業界では、曲の内容、傾向が以前と比較して変化が起きてると考えられてると思います。...これは、z世代の選好の質的な変化とか言うよりはむしろ、ストリーミングサービス普及によって、全体的な変化が生じてる、のでは...?J-pop歌詞の分析と比較 の時と同じよ
RT人間の労働力の方が人工知能より安価~ MITの研究、雇用機会の大部分は人工知能にまだ奪われないと結論https://t.co/0ScCAUtu85— 森山和道/ライター、書評屋 (@kmoriyama) April 12, 2024 この研究はどの論文なのかと思ったんですが、どうもManagement Science誌に投
LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力(logits)に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models
大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見されるhttps://t.co/BRV3Y72jdX— GIGAZINE(ギガジン) (@gigazine) April 3, 2024 大量の質問ではないですね。大
これすごい。必要なところだけGPUにして残りはCPUで推論させて40Bモデルを4090(24G)で動作。llama.cppの11倍高速https://t.co/WXy3xeI424— shi3z (@shi3z) December 24, 2023 PowerInferは、Llama2に比べたらまだ早かったですが...また、出力があんまり良くないような気
Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。"Stealing Part of a Production L
研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH— WIRED.jp (@wired_jp) March 12, 2024 システムがメッセージ(プロンプト)の保存や、RAG等を実行しなければ、ワームは機能しません。そう思ったのですが、そ
拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった(画素空間ではダメ)。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t
選択的状態空間を使用した線形時間系列モデリングSSM の実際の実装方法と、学習方法です。git clone https://github.com/state-spaces/mambacd mamba実行のためにはこうするだけではなく、pip install causal-conv1d>=1.1.0,こうする必要がありました。import to
文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試したspeech,rate = librosa.load("audio.mp3", sr=44100)result = reazonspeech(speech)result[0][0]書いてある通りの実行方法で上手く行き、最初はエラーは何も生じませんでした。実行にはrea
MambaはS4に入力を選択的に記憶/忘却をできるよう重み、間隔幅を入力に応じて変える仕組み(S6)を導入。高速メモリ内で内部状態を展開し、Parallel Scanを利用。SSMは性能がTransformerに匹敵しつつあり効率的なため今後多くの問題でTransformerに置き換わる可能性が高い ht
MusicLM: Generating Music From TextPresents MusicLM, a model for generating high-fidelity music from text. MusicLM generates music at 24 kHz that remains consistent over several minutes.proj: https://t.co/8vzBONkPe3abs: https://t.co/vzW01q7VpHdata: https:
PythonでC/C++に匹敵する実行速度を実現 米MITなどコンパイラ「Codon」開発https://t.co/3LeXsI8zKa pic.twitter.com/SFGg03JGK9— ITmedia NEWS (@itmedia_news) March 23, 2023 /bin/bash -c "$(curl -fsSL https://exaloop.io/install.sh)"これでインストール出来ま
GAS からの場合、 Twitter API V2でOAuth2.0認証のやり方のように簡単にはいきません...上手く行かなかった所だけ、理由まで含めて書いておきます。OAuth2 ライブラリのスクリプトIDは 1B7FSrk5Zi6L1rSxxTDgDEUsPzlukDsi4KGuTMorsTQHhGBzBkMun4iDF です。OAuth1 の
最近のtext to imageモデルは、プロンプトに沿った画像を生成する能力を持ちますが、この生成モデルでは画像編集は困難です。本研究ではプロンプトの編集で画像を操作する事について取り組みます...One finds new pseudo-words in the embedding space of a language mode
自然言語では2030~2040ぐらいには枯渇しそうとの事ですが高品質データはそれよりも圧倒的に早く、2027年にはかなり確実に枯渇するとの予測です。最近の言語モデルがデータ量依存なのであれば、今のままだと割と早く性能の限界が来ると...高品質データを作る作業をしたと
まず、アカウント申請します。Developer Portal の画面で key,tokenが既にあるならば、おそらくregenerateになりますが、無い場合は、ボタンがgenerateのままになっていると思います。当然これらは作らなければなりません。............................
データセットにも無責任な文例が多数存在するが、モデル自体も、それに基づいたHallucinationを増幅させる。しかし研究対象としたモデルが1世代ぐらい前(GPT-2等)なので、より新しい例えばchatGPT等のHallucinations等には正確には対応しないのでは...? 大規模言語モ
ChatGPTで「論文から非常に正確なデータ抽出」できるとの報告https://t.co/uOLCvV2lnEウィスコンシン大学の研究者らによると、ChatGPTに適切なプロンプトを与えるだけで、論文から高精度なデータ抽出が実現できる。前提条件の入力は不要。他の会話型大規模言語モデルでも使
2023/4/6時点で、Azure OpenAIではchatGPT(gpt-35-turbo)GPT-3(davinci,curie,babbage,ada)Codex(davinci,chshman)embedding(davinci,curie,babbage,ada)等が利用出来ます...独自データで言語モデルの再学習を試した人は現時点ではほとんどいないでしょうか?
Instruction-following models are now ubiquitous, but API-only access limits research.Today, we’re releasing info on Alpaca (solely for research use), a small but capable 7B model based on LLaMA that often behaves like OpenAI’s text-davinci-003.Demo: htt
言語生成AIは文章を“盗作”しているのか? 21万件の文章から米国の研究者らが分析https://t.co/BBXdgH7ysA pic.twitter.com/CxKfjm5NyH— ITmedia NEWS (@itmedia_news) February 21, 2023 Do Language Models Plagiarize?Jooyoung Lee, Jinghui Chen, Dongwon Lee Pen
Diffusion-lm improves controllable text generation.Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto Stanford UniveristyarXiv preprint arXiv:2205.14217 (2022).再トレーニングなしで言語モデルを制御することは、自然
Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ— 新
【褒めは伝搬する?】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
この研究面白いな.. 人の目には見えないノイズを画像に追加することで、Stable Diffusionなどのモデルでの学習、スタイルの模倣を困難に。アーティストのためのAdversarial examples的なもの!? GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models https:
ポケモンの名前をランダムフォレスト(機械学習)で分析した論文も出ました!https://t.co/BLoryPMoLS1月から飛ばしますねー(努力したのは去年ですが)。— Shigeto Kawahara@Keio (@PhoneticsKeio) January 6, 2023 Random forests, sound symbolism and Pokemon evoluti
https://github.com/abhayp2204/Music-GeneratorこのプロジェクトはWaveNetとLSTMによる自動音楽生成に焦点を当てます。WaveNet の構造は、言語モデルに似ています。次の単語を予測する代わりに、音符とコードから次の音符を予測します。手順複数のMIDIファイルから
Generating lead sheets with affect: A novel conditional seq2seq framework.Dimos Makris, Kat R. Agres, Dorien HerremansInternational Joint Conference on Neural Networks (IJCNN). IEEE, 2021.ディープニューラルネットワークによって自動作曲は進歩しましたが
https://t.co/QiZj6TZjoTChatGPTが書いた文章かどうかを機械学習で判別する研究。ChatGPTの生成文書は感情ではなく経験を記述し、丁寧であり、詳細には入らず一般的な用語で表現する、という傾向があることを発見。 pic.twitter.com/EoOoxz7ldC— akira (@AkiraTOSEI) Februa
以前から試していたのですが何故か上手くいかなかったので...まずgoogleアカウントのセキュリティから2段階認証を有効にします。そしてアプリパスワードを発行します。このアプリパスワードは、おそらく16桁固定です。そうしてからgmailアドレスと、このアプリパス