やはり俺の言語モデルはまちがっている(WIP
俺ガイル本文を機械学習処理してみた中間生成物。 誤検出未検出誤認識等々残っています。目視確認は一通りしたけれども積極的な修正してません。信用しないでね。
というか今の機械学習は ChatGPTが毎月超えられてる程度には 半年で一世代変わるので 人力で修正するコスト払う意味があんまりない
巻・章・節ごとのキャラクターと場所とあらすじの辞書。
こんなの。
...
v100c07_0s01:
people: [比企谷八幡, 戸塚彩加]
others: [比企谷小町, 川崎沙希, 材木座義輝, 葉山隼人, 海老名姫菜, 比企谷父, 比企谷母, カマクラ]
places: [比企谷宅]
summary: 葉山の進路は選択肢からは絞れない。八幡は葉山の人格、過去、から類推する。八幡は戸塚に電話し頼る。
v100c07_0s02:
people: [比企谷八幡, 雪ノ下雪乃, 由比ヶ浜結衣, 一色いろは, 平塚静, 戸塚彩加, 材木座義輝, 葉山隼人, 三浦優美子, 戸部翔]
others: [海老名姫菜]
places: [スタート地点, 一般の歩道, 大きな橋]
summary: マラソン大会のスタートラインで女性陣が男性陣を応援する。八幡は材木座と戸塚に妨害を依頼し葉山とツートップを作る。
...
あるキャラクターがどの巻・章・節に登場しているか、言及されているかのリスト。
こんなの。
...
- - 由比ヶ浜母
- people:
v110c07_0s03: 「ヒッキーくん......ね? 結衣からいつも聞いてるのよ~」
v140c03_0s04: 「そこで、ママのおすすめはフルーツタルトです!」
v140c03_0s05: 「何年か経って、大人になった時に桃を食べたら、こういうことあったなーって思い出すでしょ?」
v140c03_0s06: 「うん、いいんじゃない? あとは隠し味を入れれば完成ね」
v140c03_0s07: 「でも、もう作っちゃった♪」
v140c06_1s01: 「腫れちゃうからそのまま、ね」
vA03c01_0s03: 「だから、ゆっくり焦らずに、が大事なの~。」
vY02c00_1s01: 「せっかくだし美味しいケーキ屋さんにしましょ。」
others:
v040c04_0s02: 「でもママカレーってそういうのあるよね、こないだも変な葉っぱ入っててさ。」"
v050c06_0s05: 「......電話。ママからだ」
v110c07_0s01: 「ぜんぜんっ! あたしも帰りが遅いって、よくママに言われたりするし」
v110c07_0s04: 「家の中だと、サブレ、ママにべったりだから」
v120c07_0s01: 「なんかさー、もう逆にママがはしゃいでて、その、なんかほんと、恥ずかしい......」
v130c05_0s04: チェアに寝そべりリラックスしている水着姿の由比ヶ浜ママも確認できた。
v140c01_1s01: スカートもブレザーも皺がよるってママから小言を何度も言われて、
v140c03_0s03: ガハママのことは全然嫌いじゃないし、なんなら好きなのだが、
v140c03_0s08: 「ごめんね。ママ、はしゃいじゃって。なんか男の子がたくさん食べるの、嬉しいみたい」
vA02c01_0s03:
「ばっかお前何言ってんだお前、あの人のことを好きじゃない奴はこの世に一人もいねぇんだよ。みんな好きなんだよいい加減にしろマジで」
vA03c01_0s02: 甘いものが得意じゃない僕と甘いものが大好きな妻との落としどころが、ラム酒の効いたソレだったんだよなぁ......。
vA03c01_0s04: 妻がコツコツやりくりしながら、目標の貯金額に到達すると、お祝いしようなんて言って遊びに行ったもんだ。...
- - サブレ
八雪結色は省略、ほぼ全編に登場するので意味がない。
本文中の場所を示すidentifier。例えば v100c02_0s03 ならば10巻2章3節。
ピリオドやハイフォンを除去した。vscode や vim で1単語として選択できる様にしたかった。
people はその節に登場している人物。索引の場合はその人物が登場した巻章節。
others は言及されている人物。索引の場合はその人物が言及された巻章節。
単純に重要度が低い場合はothersでいいと思う。だけど people と others はあんまり正確な分別ができてない。
見た感じ誤検出はあんまりないと思う。未検出は目測で2割くらい。というか精度測定できるデータセットがない。
人工知能がとても賢いしいろいろしたので、あだ名とか人称代名詞とか敬称とかをかなり吸収できてる。2020年当時の Named Entity Recognition とは段違い。下手すると口調だけでも識別できていたりする。まあできていなかったりもする。
表記揺れはコード書いて吸収した。ただそこで誤認識が増えていたりするかもしれない。
基本的に敬称略フルネーム。なぜだか書記ちゃんを除く。フルネーム不明の場合は苗字のみ。玉縄さんとか。ついでに牧人くんではなく副会長。なめんな働け。
父母は比企谷母、比企谷父、雪ノ下母、雪ノ下父、等。八幡が「両親」に言及した場合には比企谷父と比企谷母に置き換えた。葉山父母は八幡父母との混同が多発したので手動排除。なんでかなー。
「先生たち」「生徒会」「海浜総合」みたいな総称は軽く手動排除。「小学生たち」という言葉に鶴見留美が入るか否か、「生徒会」にめぐりんが入るか否か、みたいな判断を実装できなかった。やればできるだろうけども。
その節が起きている場所、地名のリスト。複数記載されている場合は、節の中で移動していたり、着目点が変わっていたりする。一応「移動を伴わない場合は記載しない」みたいなプロンプトは入れたけども。
できるからやってみたけど、精度低いし、表記揺れも大きい。各種 heading に使ってるので気付いたら人力修正してる。
前の節からの時間経過を表すか、その節の時刻や時間帯を最も端的に示す単語。
これもできるからやってみたけど精度低いし表記揺れも大きい。これも気付き次第人力修正してる。
要約。「context window を超える長編を全編を通して最適化した要約」の自動生成は2025年夏現在ちょっとすごいはず。軽く見た範囲ではいい感じ。これも気付き次第人力修正。
生成なので幻覚見まくったり私の要約に引きずられたりしてる。言い換えればそのままこぴぺしても検索できない。