字符串中最多数目的子序列

2024-09-24

leetcode

题目：

给你一个下标从 0 开始的字符串 text 和另一个下标从 0 开始且长度为 2 的字符串 pattern ，两者都只包含小写英文字母。

你可以在 text 中任意位置插入一个字符，这个插入的字符必须是 pattern[0] 或者 pattern[1] 。注意，这个字符可以插入在 text 开头或者结尾的位置。

请你返回插入一个字符后，text 中最多包含多少个等于 pattern 的 子序列 。

子序列 指的是将一个字符串删除若干个字符后（也可以不删除），剩余字符保持原本顺序得到的字符串。

示例 1：

输入：text = "abdcdbc", pattern = "ac"
输出：4
解释：
如果我们在 text[1] 和 text[2] 之间添加 pattern[0] = 'a' ，那么我们得到 "abadcdbc" 。那么 "ac" 作为子序列出现 4 次。
其他得到 4 个 "ac" 子序列的方案还有 "aabdcdbc" 和 "abdacdbc" 。
但是，"abdcadbc" ，"abdccdbc" 和 "abdcdbcc" 这些字符串虽然是可行的插入方案，但是只出现了 3 次 "ac" 子序列，所以不是最优解。
可以证明插入一个字符后，无法得到超过 4 个 "ac" 子序列。

示例 2：

输入：text = "aabb", pattern = "ab"
输出：6
解释：
可以得到 6 个 "ab" 子序列的部分方案为 "aaabb" ，"aaabb" 和 "aabbb" 。

提示：

1 <= text.length <= 105
pattern.length == 2
text 和 pattern 都只包含小写英文字母。

思路：

首先：就text来说，其子序列为pattern的个数是确定的

我们插入一个字符后想要提升pattern的数量，如果插入pattern[0]，那么一定插入最前端，如果插入pattern[1]，一定插入最后端。这样能保证text原有的字符能被完全利用到

所以其实就只有两种插入选择，我们只要统计这两种情况下的子序列总数即可

统计子序列为pattern有两种思路：

第一种：以pattern[0]为基准，计数pattern[1]
	先统计pattern[0]和pattern[1]的数目，然后对于每个pattern[0]，统计在pattern[0]之后出现的pattern[1]的数目。累加所有即可
	
第二种：以pattern[1]为基准，计数pattern[0]
	我们只需要顺序遍历一次，每次遇到pattern[0]就累加数目，遇到pattern[1]就将pattern[0]的数目累加到答案中。

代码：

class Solution {
public:
    long long calSubseqNum(string origin, string pattern) {
        // 统计 pattern[0]和pattern[1]出现的位置，然后直接乘就好
        vector<long long> idxZero;
        vector<long long> idxOne;
        for (long long i = 0; i < origin.size(); i++) {
            if (origin[i] == pattern[0]) idxZero.push_back(i);
            if (origin[i] == pattern[1]) idxOne.push_back(i);
        }
        long long size = idxOne.size();
        if (pattern[0] == pattern[1]) {
            return size * (size - 1) / 2;
        }
        long long j = 0;
        long long ans = 0;
        for (int i = 0; i < idxZero.size(); i++) {
            while (j < size && idxOne[j] <= idxZero[i]) j++;
            ans += (size - j);
        }
        return ans;
    }
    long long maximumSubsequenceCount(string text, string pattern) {
        // 首先：就text来说，其子序列为pattern的个数是确定的
        // 我们插入一个字符后想要提升pattern的数量，如果插入pattern[0]，那么一定插入最前端，如果插入pattern[1]，一定插入最后端。这样能保证text原有的字符能被完全利用到
        // 所以其实就只有两种插入选择，我们只要统计这两种情况下的子序列总数即可
        /*
        string choose_one = pattern[0] + text;
        string choose_two = text + pattern[1];
        return max(calSubseqNum(choose_one, pattern), calSubseqNum(choose_two, pattern));
        */
        long long res = 0;
        int cnt1 = 0, cnt2 = 0;
        for (char c: text) {
            if (c == pattern[1]) {
                res += cnt1;
                cnt2++;
            }
            if (c == pattern[0]) {
                cnt1++;
            }
        }
        return res + max(cnt1, cnt2);  // max(cnt1, cnt2)为新增一位字符的累加数
    }
};