NLP
【論文メモ】Lifting the Curse of Multilinguality by Pre-training Modular Transformers
· ☕ 1 min read
NACCL22 多言語を扱うモデルにおいて, 言語の数を増やせば増やすほど精度が下がる「the curse of multilinguality」(多言語の呪い)という現象が存在する この「多言語の呪い」を対処するモデルとしてX-MODを提案 概略 言語ごとにbottleneck型のモジュールを用意し, 言語ごとにスイッチさせる それ故, 拡張は容易で, 学習・推 ...


【論文メモ】SimCSE
· ☕ 1 min read
ENMLP21 Supervised SimCSE 含意関係にある文を正例として対照学習 NLIデータセット Unsupervised SimCSE 同じ文を二回埋め込んで対照学習 dropoutの影響で微かに異なる二つのベクトルに対して対照学習 引用: https://www.slideshare.net/DeepLearningJP2016/dlsimcse-simple-contrastive-learning-of-sentence-embeddings-emnlp-2021 ...


pycocoevalcapのMETEORがバグる (self.meteor_p.stdin.flush)
· ☕ 1 min read
なぜかpycocoevalcapでMETEORの計算が止まる問題 どうやらself.meteor_p.stdin.flush() あたりで止まっているらしい 結論から言えば, 俺の場合キャプションに\nが入っていたせいだった そもそもCOCO captions のキャプション自体結構汚いので注意 変な改行入ってたり, キャプションがなぜか6つあったり ...


「AのB」問題
· ☕ 1 min read
名詞句「AのB」は意味が多い・曖昧すぎて, 非常に解析しにくい NLP界隈では「AのB」の怖さを徹底的に叩き込まれるらしい 先生曰く, 読み方は ✅ 「エー→のビー」 ❌「エー⤵のビー」 らしい KNPを作った京大黒橋研の論文 国語辞典を用いた名詞句「AのB」の意味解析 名詞に必須格の考え方を持ち込み, 国語辞典から「AのB」の解析=分類を試 ...

述語項構造
· ☕ 1 min read
述語項構造とは、何がどうした、という述語とその項からなる構造のことである。 https://pyknp.readthedocs.io/en/latest/usage.html 「述語」に対して, 「項」と「格」が接続されている 引用: https://www.scribd.com/archive/plans?slideshare=true tips 述語項構造はJUMAN++とKNPで取り出せる JUMAN++はRNNベースの形態素解析ツール KNPは構文・格・照応解析システム Pythonからも使える https://pyknp.readthedocs.io/en/latest/ 両者をDockerから使えるように ...


コピュラ (copula)
· ☕ 1 min read
copula 別名: 「繋辞」 文の主語と述語を結ぶための品詞. つまり, X=Yの形式を作る品詞 例 日本語: 「だ」「です」…etc 英語: be動詞, become … etc 「Y=Xと交換可能であり、2つの要素が一致すること」を指定(してい)、「Y=Xとすることができず、YがXの属性を表すこと」を措定(そてい)と呼ぶ。これらを区別して表現する言語 ...

【論文メモ】Generating Semantically Precise Scene Graphs from Textual Descriptions for Improved Image Retrieval
· ☕ 2 min read
Stanford Scene Graph Parserの論文 (ACL 2015) 一応, scene graphを自動化してimage retrievalできるようにしようという趣旨 https://nlp.stanford.edu/software/scenegraph-parser.shtml 流れ ①Universal Dependenciesを一部修正したものをsemantic graphとして生成 a lot of 等のquantificational modifiersの修正 代名詞の解釈 複数名詞への対応 → ノー ...

【論文メモ】SPICE: Semantic Propositional Image Caption Evaluation
· ☕ 1 min read
評価指標SPICEの論文 (ECCV 2016) BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えない そこで, scene graphを用いた評価指標SPICEを提案 実際, 画像キャプショニングモデルではよく見かける指標となってきた 流れ ① 複数キャプションからscene graphを生成 scene graph ...


日本語キャプションデータセット
· ☕ 1 min read
STAIR MSCOCOにキャプションを付与 全部で820,310件のキャプション http://captions.stair.center/ Yuya Yoshikawa, Yutaro Shigeto, and Akikazu Takeuchi, “STAIR Captions: Constructing a Large-Scale Japanese Image Caption Dataset”, Annual Meeting of the Association for Computational Linguistics (ACL), Short Paper, 2017. YJ Captions 26k Dataset こちらもMSCOCOにキャプションを付与したもので, ACL2016 キャプション数がSTAIRの1/6程度 https://github.com/yahoojapan/YJCaptions Takashi Miyazaki and Nobuyuki Shimizu. 2016. Cross-Lingual Image Caption Generation. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1780 ...