字符串中最多数目的子序列

2024-09-24

题目:

给你一个下标从 0 开始的字符串 text 和另一个下标从 0 开始且长度为 2 的字符串 pattern ,两者都只包含小写英文字母。

你可以在 text 中任意位置插入 一个 字符,这个插入的字符必须是 pattern[0] 或者 pattern[1] 。注意,这个字符可以插入在 text 开头或者结尾的位置。

请你返回插入一个字符后,text 中最多包含多少个等于 pattern子序列

子序列 指的是将一个字符串删除若干个字符后(也可以不删除),剩余字符保持原本顺序得到的字符串。

示例 1:

输入:text = "abdcdbc", pattern = "ac"
输出:4
解释:
如果我们在 text[1] 和 text[2] 之间添加 pattern[0] = 'a' ,那么我们得到 "abadcdbc" 。那么 "ac" 作为子序列出现 4 次。
其他得到 4 个 "ac" 子序列的方案还有 "aabdcdbc" 和 "abdacdbc" 。
但是,"abdcadbc" ,"abdccdbc" 和 "abdcdbcc" 这些字符串虽然是可行的插入方案,但是只出现了 3 次 "ac" 子序列,所以不是最优解。
可以证明插入一个字符后,无法得到超过 4 个 "ac" 子序列。

示例 2:

输入:text = "aabb", pattern = "ab"
输出:6
解释:
可以得到 6 个 "ab" 子序列的部分方案为 "aaabb" ,"aaabb" 和 "aabbb" 。

提示:

  • 1 <= text.length <= 105
  • pattern.length == 2
  • textpattern 都只包含小写英文字母。

思路:

首先:就text来说,其子序列为pattern的个数是确定的

我们插入一个字符后想要提升pattern的数量,如果插入pattern[0],那么一定插入最前端,如果插入pattern[1],一定插入最后端。这样能保证text原有的字符能被完全利用到

所以其实就只有两种插入选择,我们只要统计这两种情况下的子序列总数即可

统计子序列为pattern有两种思路:

第一种:以pattern[0]为基准,计数pattern[1]
	先统计pattern[0]和pattern[1]的数目,然后对于每个pattern[0],统计在pattern[0]之后出现的pattern[1]的数目。累加所有即可
	
第二种:以pattern[1]为基准,计数pattern[0]
	我们只需要顺序遍历一次,每次遇到pattern[0]就累加数目,遇到pattern[1]就将pattern[0]的数目累加到答案中。

代码:

class Solution {
public:
    long long calSubseqNum(string origin, string pattern) {
        // 统计 pattern[0]和pattern[1]出现的位置,然后直接乘就好
        vector<long long> idxZero;
        vector<long long> idxOne;
        for (long long i = 0; i < origin.size(); i++) {
            if (origin[i] == pattern[0]) idxZero.push_back(i);
            if (origin[i] == pattern[1]) idxOne.push_back(i);
        }
        long long size = idxOne.size();
        if (pattern[0] == pattern[1]) {
            return size * (size - 1) / 2;
        }
        long long j = 0;
        long long ans = 0;
        for (int i = 0; i < idxZero.size(); i++) {
            while (j < size && idxOne[j] <= idxZero[i]) j++;
            ans += (size - j);
        }
        return ans;
    }
    long long maximumSubsequenceCount(string text, string pattern) {
        // 首先:就text来说,其子序列为pattern的个数是确定的
        // 我们插入一个字符后想要提升pattern的数量,如果插入pattern[0],那么一定插入最前端,如果插入pattern[1],一定插入最后端。这样能保证text原有的字符能被完全利用到
        // 所以其实就只有两种插入选择,我们只要统计这两种情况下的子序列总数即可
        /*
        string choose_one = pattern[0] + text;
        string choose_two = text + pattern[1];
        return max(calSubseqNum(choose_one, pattern), calSubseqNum(choose_two, pattern));
        */
        long long res = 0;
        int cnt1 = 0, cnt2 = 0;
        for (char c: text) {
            if (c == pattern[1]) {
                res += cnt1;
                cnt2++;
            }
            if (c == pattern[0]) {
                cnt1++;
            }
        }
        return res + max(cnt1, cnt2);  // max(cnt1, cnt2)为新增一位字符的累加数
    }
};