技術 2026年5月17日(日) 約8分 BERTはキーワード検索から文脈検索へ何を変えたか DEV CommunityのBERT解説を、Google Searchでの2019年導入、masked language model、OCR校正やEmbedding検索との違いから読み直す。生成ではなく文脈を読むエンコーダーとして見ると使いどころがはっきりする。 AI BERT 自然言語処理 検索 機械学習 Python
技術 2026年5月14日(木) 約6分 3GBのSQLite FTSを10MBのRust FSTに置き換えたフィンランド語辞書で圧縮率300倍が出た条件 Andrew Quinnのフィンランド語辞書tskで、3GBのSQLite FTSが10MBのRust FSTになった話を読む。前方一致、語形変化、静的データ、接尾辞の共有が揃うと何が起きるか。 データ構造 検索 全文検索 Rust
技術 2026年1月21日(水) 約7分 検索を速くするデータ構造総まとめ - Trie, 転置インデックス, 接尾辞配列, ダブル配列 辞書引き、全文検索、オートコンプリートなど検索系処理で使われるデータ構造を網羅的に解説する。Trie、ダブル配列、転置インデックス、接尾辞配列、B+木、LSM木など10種類のデータ構造の仕組みと使い分けを整理した。 データ構造 アルゴリズム 検索 全文検索